Галлюцинации AI: почему модели врут и как это проверять
Почему ChatGPT, Claude и другие AI-модели уверенно выдают ложную информацию, в каких ситуациях ошибки наиболее вероятны и как выстроить систему проверки, чтобы не стать жертвой AI-галлюцинаций
Тип материала: research
Что такое галлюцинации AI и почему это не баг, а особенность технологии
Галлюцинация AI — это ситуация, когда модель генерирует ответ, который звучит уверенно, выглядит правдоподобно, но является фактически неверным. Модель может придумать несуществующие научные исследования, сослаться на вымышленные судебные решения, указать неверные даты и цифры или создать целый абзац «фактов», каждый из которых не соответствует действительности.
Важно понимать: галлюцинации не являются ошибкой в коде или следствием плохого обучения. Они — фундаментальное свойство того, как работают большие языковые модели (LLM). Модель не «знает» факты и не «понимает» мир. Она прогнозирует наиболее вероятное следующее слово в последовательности на основе статистических закономерностей, выявленных в обучающих данных. Когда модель пишет «Париж — столица Франции», она делает это не потому, что знает географию, а потому, что в обучающих данных эти слова часто стоят рядом.
Это принципиальное отличие от традиционных информационных систем. Поисковик или база данных либо находят запрошенную информацию, либо сообщают, что она не найдена. LLM всегда генерирует ответ. Модель не может сказать «не знаю» в традиционном смысле — вместо этого она создаёт наиболее вероятный с точки зрения статистики текст, который может не иметь отношения к реальности.
Механизм галлюцинаций: как модель «придумывает» факты
Чтобы понять, почему галлюцинации неизбежны, нужно разобраться в принципе работы LLM. На этапе обучения модель анализирует миллиарды текстовых документов и выстраивает многомерную статистическую карту: какие слова и фразы с какой вероятностью следуют друг за другом в различных контекстах. На этапе генерации (inference) модель последовательно выбирает каждое следующее слово, руководствуясь этой статистической картой и предыдущим контекстом.
Проблема возникает, когда модель оказывается в области, где её статистическая карта неточна или неполна. Это может происходить по нескольким причинам. Редкие темы — если тема слабо представлена в обучающих данных, модель вынуждена «интерполировать» между близкими, но не идентичными контекстами. Конфликтующая информация — обучающие данные могут содержать противоречивую информацию по одному вопросу, и модель может выбрать неверную версию. Временная устарелость — модель обучена на данных до определённой даты и не знает о более поздних событиях, но может «додумать» их по аналогии с более ранними.
Эффект контекста — пользователь может непреднамеренно направить модель в сторону галлюцинации. Если в запросе содержится ложная предпосылка («Расскажите о романе Толстого 'Утренняя звезда'»), модель с высокой вероятностью начнёт описывать несуществующий роман, вместо того чтобы указать на ошибку.
Знаменитые случаи галлюцинаций AI
Ряд публичных инцидентов продемонстрировал серьёзность проблемы галлюцинаций. Наиболее известный — дело Мата против Авианка (Mata v. Avianca) в 2023 году. Адвокат Стивен Шварц использовал ChatGPT для подготовки юридической записки и включил в неё ссылки на шесть судебных решений. Все шесть оказались вымышленными — ChatGPT сгенерировал правдоподобные названия дел, номера и даже цитаты из несуществующих постановлений. Когда судья попросил предоставить копии решений, адвокат снова обратился к ChatGPT с просьбой подтвердить их существование, и модель подтвердила, что дела реальны.
В 2024 году ChatGPT сгенерировал сексуальное обвинение в адрес реального австралийского мэра, приписав ему участие в скандале с растратой, который никогда не происходил. Мэр Брайан Худ объявил о намерении подать иск против OpenAI — первый известный случай судебного преследования за диффамацию со стороны AI. В 2023 году Google Bard (ныне Gemini) в своей первой публичной демонстрации допустил фактическую ошибку, заявив, что телескоп Джеймса Уэбба сделал первые фотографии экзопланет за пределами Солнечной системы, хотя первые такие фотографии были сделаны Очень большим телескопом ESO в 2004 году. Эта ошибка обрушила акции Alphabet на 100 миллиардов долларов.
Типы галлюцинаций: классификация
Исследователи выделяют несколько типов галлюцинаций. Фактические галлюцинации — модель утверждает факты, которые не соответствуют действительности. Примеры: неверные даты, вымышленные события, ошибочная атрибуция цитат. Логические галлюцинации — модель делает правильные утверждения по отдельности, но выстраивает из них некорректные логические цепочки или выводы.
Галлюцинации источников — модель ссылается на несуществующие источники: научные статьи, книги, судебные решения, новостные публикации. Это особенно опасно, поскольку наличие ссылки создаёт иллюзию проверяемости. Галлюцинации идентичности — модель приписывает реальным людям действия, высказывания или биографические факты, которые никогда не имели места. Числовые галлюцинации — модель генерирует конкретные числа (статистику, проценты, даты), которые выглядят правдоподобно, но не имеют фактического основания.
Когда AI галлюцинирует чаще всего
Знание ситуаций, в которых AI наиболее склонен к галлюцинациям, помогает заранее повысить бдительность. Узкоспециализированные темы — чем реже тема встречается в интернете, тем меньше данных о ней видела модель и тем выше вероятность галлюцинации. Локальная история, специфические отрасли, нишевые научные направления — зона повышенного риска.
Конкретные числа и статистика — модель часто генерирует правдоподобные, но вымышленные статистические данные. Если AI сообщает, что «по данным исследования 2024 года, 67 процентов компаний используют AI», эту цифру необходимо проверять — с высокой вероятностью она приблизительна или полностью выдумана. Недавние события — модели имеют дату отсечки обучающих данных. Вопросы о событиях после этой даты гарантированно приведут к галлюцинациям или устаревшей информации.
Биографии малоизвестных людей — модель может смешать факты разных людей с похожими именами или дополнить реальную биографию вымышленными деталями. Запросы на цитаты — «процитируй, что сказал Эйнштейн о...» — классический триггер галлюцинаций. Модель скорее сгенерирует правдоподобную, но вымышленную цитату, чем откажется отвечать. Промежуточные вычисления — при выполнении многошаговых математических или логических задач модель может допустить ошибку на одном из шагов и уверенно продолжить вычисления с неверным промежуточным результатом.
Почему модели не говорят «не знаю»
Одна из главных претензий к LLM — их неспособность честно признать отсутствие знаний. Модель почти никогда не отвечает «я не знаю» или «у меня нет достоверной информации по этому вопросу». Вместо этого она генерирует уверенный ответ, который может быть полностью вымышленным. Это происходит по нескольким причинам.
Первая — архитектурная. LLM обучены генерировать текст, который максимально похож на тексты в обучающих данных. В интернете и книгах крайне мало текстов, которые начинаются с «я не знаю». Гораздо чаще тексты содержат утвердительные ответы. Поэтому статистически модель стремится к утвердительному стилю. Вторая — RLHF (обучение с подкреплением на основе обратной связи от людей). В процессе тонкой настройки модели обучаются быть «полезными», а полезность часто ассоциируется с предоставлением ответа, а не с отказом. Современные модели становятся лучше в признании неопределённости, но проблема далека от решения.
Как проверять ответы AI: пошаговый процесс
Эффективная верификация ответов AI — это навык, который требует систематического подхода. Предлагаем следующий пошаговый процесс. Шаг 1: оцените уровень риска. Прежде чем проверять, определите, насколько критична точность. Черновик поздравления с днём рождения не требует факт-чекинга. Юридическая справка — требует максимального.
Шаг 2: проверьте ключевые факты. Выделите в ответе AI все конкретные утверждения: даты, имена, числа, события. Проверьте каждое через независимые источники. Не используйте для проверки тот же AI — это создаёт порочный круг. Используйте первичные источники: официальные сайты, научные базы данных, государственные реестры.
Шаг 3: проверьте источники. Если AI ссылается на конкретные исследования, статьи или документы, проверьте их существование. Введите название работы в Google Scholar или соответствующую базу. Если источник не находится — это галлюцинация. Шаг 4: оцените внутреннюю непротиворечивость. Содержит ли ответ AI логические противоречия? Согласуются ли приведённые числа друг с другом? Не противоречат ли выводы исходным посылкам?
Шаг 5: используйте перекрёстную проверку моделями. Задайте тот же вопрос нескольким AI-моделям (ChatGPT, Claude, Gemini). Если все модели дают одинаковый ответ, это повышает (но не гарантирует) его достоверность. Если ответы расходятся — это сигнал для более тщательной проверки через первичные источники.
Техника запросов для снижения галлюцинаций
Способ формулировки запроса существенно влияет на вероятность галлюцинации. Несколько техник помогают снизить этот риск. Просите указывать уровень уверенности. Добавьте в запрос: «Для каждого утверждения укажи, насколько ты уверен в его точности: высокая, средняя или низкая уверенность. Если ты не уверен, скажи об этом прямо». Это не гарантирует честности модели, но увеличивает вероятность того, что она обозначит зоны неопределённости.
Просите привести источники. «Укажи источники для каждого утверждения. Если точный источник неизвестен, скажи об этом.» Даже если модель не может дать реальные ссылки, сама постановка вопроса заставляет её быть более осторожной. Разбивайте сложные вопросы на простые. Вместо одного комплексного запроса задайте серию простых вопросов. На простые фактические вопросы модели ошибаются реже, чем на запросы, требующие синтеза множества фактов.
Избегайте наводящих формулировок. Вопрос «Расскажи о влиянии X на Y» предполагает, что влияние существует, даже если его нет. Лучше: «Существует ли доказанное влияние X на Y? Если да, опиши его.» Используйте chain-of-thought. Попросите модель объяснить свои рассуждения шаг за шагом. Это повышает прозрачность процесса генерации и помогает обнаружить ошибки на промежуточных этапах.
Инструменты для проверки AI-генерированной информации
Существует ряд инструментов, помогающих верифицировать ответы AI. Google Scholar — для проверки существования научных публикаций. Если AI ссылается на статью, которой нет в Google Scholar, это почти наверняка галлюцинация. Wikipedia — при всех своих ограничениях, полезна для быстрой проверки базовых фактов (даты, события, биографии). Wolfram Alpha — для проверки математических вычислений, физических констант, статистических данных.
Perplexity AI — поисковый движок на базе AI, который предоставляет ответы с реальными ссылками на источники. Полезен как «второе мнение» с проверяемыми источниками. Consensus — AI-инструмент для поиска научного консенсуса по конкретным вопросам, работающий с базой рецензируемых научных статей. Elicit — помощник для научного исследования, который ищет релевантные научные работы и извлекает из них ключевые данные.
Рабочий процесс факт-чекинга для разных типов контента
Для текстов и статей: проверьте все цитаты и атрибуции; верифицируйте статистические данные через первичные источники; проверьте хронологию событий; убедитесь, что названия организаций и должности людей указаны верно. Для кода: проверьте, что упомянутые библиотеки и функции существуют и имеют указанный синтаксис; запустите код и проверьте результат; обратите внимание на устаревшие API — модель может использовать версии, которые уже не поддерживаются.
Для юридической информации: проверьте существование каждого упомянутого закона и нормативного акта; верифицируйте номера статей и их содержание; если указаны судебные решения — проверьте их через официальные базы. Для медицинской информации: не принимайте медицинские рекомендации AI без консультации с врачом; проверьте названия препаратов и дозировки через справочники; помните, что AI может смешать симптомы разных заболеваний.
Уровень галлюцинаций у разных моделей
Разные модели демонстрируют различный уровень галлюцинаций. По данным независимых бенчмарков, модели последнего поколения (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro) значительно реже галлюцинируют, чем их предшественники (GPT-3.5, Claude 2). Однако ни одна модель не свободна от галлюцинаций полностью.
Общая тенденция: более крупные и новые модели галлюцинируют реже, но разрыв между лучшими и худшими моделями по этому параметру остаётся значительным. Модели с расширенными возможностями поиска (Perplexity, ChatGPT с Browse, Gemini с поиском) демонстрируют меньший уровень фактических ошибок за счёт доступа к актуальной информации, но они тоже не застрахованы от неправильной интерпретации найденных данных.
Почему нельзя проверять AI ответом другого AI
Распространённая, но ошибочная практика — проверять ответ ChatGPT вопросом «Ты уверен?» или копировать ответ одной модели в другую с просьбой оценить его достоверность. Это не работает по нескольким причинам. Во-первых, если вы спрашиваете ту же модель «Ты уверен?», она почти всегда подтвердит свой ответ. Модели обучены быть последовательными в рамках одного разговора — это не проверка, а запрос на подтверждение.
Во-вторых, если вы используете другую модель для проверки, она может повторить ту же галлюцинацию. Разные модели обучены на пересекающихся данных и могут разделять одни и те же заблуждения. Если ложный «факт» широко распространён в интернете, несколько моделей могут воспроизвести его. Перекрёстная проверка моделями полезна только как первый фильтр — финальная проверка всегда должна опираться на первичные источники, созданные людьми.
Галлюцинации в коде: особый случай
Галлюцинации в сгенерированном коде особенно коварны, потому что код может выглядеть синтаксически корректным, но содержать логические ошибки или использовать несуществующие функции. Типичные формы: модель вызывает метод библиотеки, который не существует или был удалён в новой версии; код компилируется, но содержит тонкую логическую ошибку (off-by-one, неправильная обработка граничных случаев); модель «изобретает» API, смешивая синтаксис разных библиотек; код использует deprecated-функции, которые больше не поддерживаются.
Для защиты от галлюцинаций в коде: всегда запускайте сгенерированный код и проверяйте результат; проверяйте существование упомянутых функций и классов в официальной документации; пишите тесты для сгенерированного кода; используйте линтеры и статический анализ; не доверяйте коду для систем с высокими требованиями к безопасности без тщательного ревью.
Строим здоровый скептицизм: баланс между доверием и паранойей
Осведомлённость о галлюцинациях не должна приводить к полному отказу от AI. Модели остаются чрезвычайно полезными инструментами, которые существенно повышают продуктивность. Задача — найти баланс между доверием и критическим мышлением. Этот баланс можно описать несколькими принципами.
Принцип 1: AI — помощник, не оракул. Используйте AI как первый черновик, отправную точку, генератор идей. Не используйте его как единственный и окончательный источник информации. Принцип 2: чем выше ставки, тем тщательнее проверка. Для черновика блог-поста достаточно беглой проверки ключевых фактов. Для юридического документа необходима полная верификация каждого утверждения. Принцип 3: знайте слабые стороны модели. Помните ситуации, в которых модели ошибаются чаще (редкие темы, числа, недавние события), и усиливайте проверку в этих зонах.
Принцип 4: сохраняйте экспертизу. AI не заменяет профессиональные знания — он их усиливает. Если вы теряете способность самостоятельно оценивать правильность ответа AI, вы становитесь уязвимы для галлюцинаций. Продолжайте учиться, читать первоисточники, развивать экспертизу в своей области. Принцип 5: документируйте использование AI. Если вы использовали AI для создания важного документа, отметьте это. Это поможет другим людям понять, что материал может требовать дополнительной проверки.
Будущее: станут ли галлюцинации решённой проблемой
Крупнейшие AI-компании инвестируют значительные ресурсы в снижение уровня галлюцинаций. Несколько направлений выглядят перспективно. Retrieval-Augmented Generation (RAG) — модель сначала ищет релевантную информацию в базе знаний, а затем формулирует ответ на её основе. Это значительно снижает галлюцинации, привязывая генерацию к конкретным документам.
Обучение на верификации — модели обучают не только генерировать ответы, но и проверять собственные утверждения, отмечая зоны неуверенности. Интеграция с поиском — модели получают доступ к актуальной информации в интернете, что снижает количество устаревших и выдуманных фактов. Специализированные модели — вместо одной универсальной модели создаются специализированные модели для конкретных доменов (медицина, право, финансы), обученные на верифицированных данных.
Тем не менее полное устранение галлюцинаций маловероятно в обозримом будущем, поскольку они заложены в саму архитектуру языковых моделей. Вероятнее всего, мы увидим значительное снижение их частоты и создание инструментов, которые помогают обнаруживать и помечать потенциальные галлюцинации автоматически. Но навык критической проверки AI-генерированной информации останется необходимым для любого пользователя.
Практические выводы
Галлюцинации AI — это не повод отказываться от технологии, но повод использовать её осознанно. Относитесь к ответам AI как к черновику, написанному стажёром: он может быть блестящим, но может содержать грубые ошибки. Всегда проверяйте критические факты через первичные источники. Знайте слабые стороны моделей и усиливайте бдительность в зонах повышенного риска. Инвестируйте время в освоение техник запросов, снижающих вероятность галлюцинаций. Это небольшие усилия, которые защитят вас от потенциально серьёзных последствий — от профессионального конфуза до юридической ответственности.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться Midjourney: генерация картинок AI
Midjourney — самый популярный AI-генератор изображений. Фотореализм, арт, иллюстрации, логотипы. Показываем, как начать — от регистрации до первой картинки.
Как установить Ollama: запуск AI-моделей на своём компьютере
Ollama — самый простой способ запустить AI-модели локально. Llama, Mistral, Qwen, DeepSeek — всё работает на вашем компьютере, без интернета, бесплатно и приватно.
Как начать пользоваться ChatGPT: пошаговая инструкция для Mac, Windows, iPhone и Android
Регистрация, установка, первый запрос — всё, что нужно, чтобы начать общаться с самой популярной нейросетью в мире. Без технических знаний, за 5 минут.