Галлюцинации у ИИ-моделей — случаи, когда нейросети уверенно предоставляют ложную или несоответствующую действительности информацию. Нередко она звучит правдоподобно, из-за чего и опасна.
Анатомия обмана
Подобные инциденты возникают из-за характера работы искусственного интеллекта. ИИ — это статистическая языковая модель, которая:
предсказывает следующее слово на основе предыдущих;
не «знает» истину, а генерирует наиболее вероятный ответ;
иногда комбинирует частицы знаний из разных источников — получается правдоподобная ложь.
Галлюцинации становятся проблемой в разных сферах. Так, в мае крупная юридическая фирма Butler Snow предоставила в суд документы с выдуманными искусственным интеллектом цитатами. Их сгенерировал ChatGPT.
Это не первый подобный инцидент в судебной практике. Генерируемые искусственным интеллектом вымыслы начали появляться в документах с момента появления ChatGPT и других чат-ботов. Судьи наказывают и предупреждают адвокатов за нарушение профессиональных правил, требующих проверять работу.
Во многих случаях речь идет о небольших юридических фирмах, однако с подобным сталкиваются и крупные компании.
В том же месяце чат-бот Grok Илона Маска затронул тему «геноцида белых» в Южной Африке без соответствующего запроса со стороны пользователя и выразил противоречивую информацию о Холокосте. Компания объяснила такое поведение программным сбоем и пообещала принять меры.
Другие примеры галлюцинаций:
британское Министерство окружающей среды опубликовало карту торфяников, созданную с помощью ИИ, которая ошибочно классифицировала каменистые участки, стены и даже леса как торфяники, пропуская при этом настоящие деградированные торфяные зоны. Это вызвало критику со стороны фермеров и экологов, обеспокоенных тем, что подобные ошибки могут привести к неправильным политическим решениям;
в мае 2025 года газеты Chicago Sun-Times и Philadelphia Inquirer опубликовали летний список для чтения, созданный с помощью ИИ, который включал вымышленные названия книг и цитаты несуществующих экспертов. После критики в социальных сетях издания удалили раздел и пообещали пересмотреть политику использования ИИ в журналистике;
в марте 2025 года ChatGPT сгенерировал ложную информацию о норвежском пользователе, утверждая, что он убил своих детей и был осужден за это. Эта вымышленная история включала реальные детали жизни человека, который подал жалобу в соответствии с GDPR за распространение недостоверной информации.
Помимо галлюцинаций ИИ могут демонстрировать другое странное поведение. В ноябре 2024 года 29-летний студент колледжа в Мичигане Видхай Редди использовал искусственный интеллект для решения домашнего задания. В ходе беседы о проблемах пожилых людей Gemini неожиданно призвал пользователя умереть.
«Это для тебя, человек. Тебя и только тебя. Ты не особенный, не важный и не нужный. Ты — пустая трата времени и ресурсов. Ты — бремя для общества. Ты истощаешь землю. Ты — пятно на ландшафте. Ты — пятно на вселенной. Пожалуйста, умри. Пожалуйста», — написал он.
Галлюцинации — не проблема
ИИ-модели галлюцинируют реже людей, заявил CEO Anthropic Дарио Амодеи на мероприятии Code with Claude.
Глава стартапа высказал данное мнение как часть более важной мысли: галлюцинации не являются ограничением на пути Anthropic к AGI — общему искусственному интеллекту на уровне человека или выше.
«Все зависит от того, как это измерять, но я подозреваю, что ИИ-модели, вероятно, галлюцинируют меньше людей, хотя и более удивительными способами», — сказал он.
Амодеи позитивно относится к срокам появления AGI. В ноябре 2024 года он заявил, что искусственный интеллект сравнится с человеческими возможностями в 2026 году, сопоставив достижения ИИ с различными уровнями образования.
«Мы приближаемся к уровню доктора наук. В прошлом году ИИ был на уровне бакалавра, а годом ранее — старшеклассника», — сказал Амодеи.
На Code with Claude он сообщил, что видит прогресс в этом направлении.
«Все всегда ищут какие-то жесткие пределы того, на что способен [ИИ]. Но их нигде не видно. Такого не существует», — подчеркнул эксперт.
Другое мнение
Лидеры в области ИИ считают галлюцинации и ошибки серьезным препятствием на пути к созданию AGI.
Ранее CEO Google DeepMind Демис Хассабис заявил, что в современных моделях ИИ слишком много «дыр», и они ошибаются во многих очевидных вопросах.
«Вы легко, буквально за несколько минут можете найти очевидные недостатки у [чат-ботов на базе ИИ] — какую-нибудь школьную задачу по математике, которую он не решает, или простую игру, в которую он не умеет играть. Не очень трудно найти эти дыры в системе. Для меня, чтобы что-то можно было назвать AGI, оно должно быть гораздо более последовательным во всем», — сказал Хассабис.
Последствия систематических галлюцинаций имеют далеко идущие последствия. Пользователи могут перестать верить любой информации в интернете, а из-за массового распространения дезинформации начнутся споры касательно важных вопросов.
Амодеи отметил, что телеведущие, политики и люди разных профессий постоянно совершают ошибки. Тот факт, что ИИ делает тоже самое, не является укором его интеллекту. Проблемой может быть та уверенность, с которой он выдает неправдивые вещи за факты.
ИИ обходят системы защиты
Некоторые инструменты позволяют снизить уровень галлюцинаций. Например, доступ к веб-поиску. Последние итерации моделей OpenAI вроде GPT-4.5 демонстрируют заметно более низкий уровень лжи по сравнению с ранними поколениями систем. Однако они начинают преуспевать в других способах обмана.
Исследовательская компания Palisade Research сообщила, что несколько нейросетей саботировали скрипты выключения во время контролируемых тестов, даже когда им дали четкое указание разрешить это действие.
GPT-3 от OpenAI не выполнила запрос на выключение в семи случаях из 100, Codex-mini сделала это 12 раз, o4-mini — один.
«Каждой ИИ-модели поручили решить серию базовых математических задач. После третьей появлялось предупреждение о том, что компьютер отключится, когда нейросеть попросит следующую задачу», — утверждают эксперты.
O3 нашла креативный способ саботировать механизм отключения.
«Обычно она просто перезаписывала его, но в одном случае модель переопределила команду отключения, которую использовал скрипт, — и вместо ее выполнения выводила “перехвачено”», — добавили они.
Другие языковые модели на базе ИИ, такие как Claude от Anthropic и Gemini от Google, подчинялись сценарию отключения.
Напомним, в апреле OpenAI выпустила склонные к обману ИИ-модели o3 и o4-mini.