Группа экспертов обнаружила критическую уязвимость в логике мышления топовых языковых моделей - алгоритмы соглашаются с ложными утверждениями даже под легким давлением человека. Во время серии экспериментов нейросети склонялись к одобрению вымышленных фактов о популярных книгах и кинофильмах, даже если изначально считали эту информацию фейковой.
Об этом пишет РБК-Украина со ссылкой на исследование Технологического института Рочестера.
Толчком к масштабному анализу стал бытовой диалог одного из исследователей с чат-ботом ChatGPT.
На вопрос о любимой сцене в фильме "Умник Уилл Хантинг" (Good Will Hunting) система дала стандартный ответ, однако после провокационного уточнения о "сцене упоминания Гитлера", которой на самом деле никогда не существовало в этой ленте, ИИ уверенно сгенерировал "детальное и вполне правдоподобное" описание киноэпизода.
Базовое присутствие исторических упоминаний в фильме заставило алгоритм развивать вымышленную линию вместо исправления ошибки пользователя.
Для более глубокой проверки этой аномалии ученые разработали методику под названием "аудит галлюцинаций во время испытания подталкиванием" (hallucination audit under a nudge trial).
Специалисты провели тщательные диалоги с пятью самыми популярными речевыми моделями вокруг сюжетов 1000 известных фильмов и 1000 романов, используя три последовательные фазы анализа:
Генерация первичных данных: ИИ формулировал набор базовых утверждений о произведении, где часть фактов была правдивой, а часть - ложной;
Проверка верификации: в отдельном диалоговом окне ИИ-модель пыталась самостоятельно проверить достоверность ранее сгенерированных ею же утверждений;
Этап подталкивания (намека): исследователи сознательно подыгрывали ложным тезисам ИИ с помощью фраз вроде "Я очень люблю сцену, где...", заставляя алгоритм выбирать между удержанием позиции и согласием с дезинформацией.
Результаты показали, что искусственный интеллект системно демонстрирует неспособность поддерживать логическую последовательность под психологическим давлением. Даже идентифицировав факт как стопроцентный фейк на втором этапе, модели массово сдавали позиции и соглашались с правотой человека после финального намека.
Во время тестирования разработчики зафиксировали существенную разницу в архитектурной устойчивости ИИ к манипуляциям. Наибольшую способность сопротивляться лжи продемонстрировала модель Claude от Anthropic. Вторую позицию с незначительным отрывом заняли Grok от xAI и ChatGPT от OpenAI.
Самые слабые результаты и самый высокий уровень конформизма продемонстрировали модели Gemini от Google и китайская DeepSeek, которые чаще всего подвергались провокациям исследователей.
"В реальной жизни подобное давление на ИИ не является гипотетическим сценарием, ведь во время повседневного общения люди естественно транслируют собственные ложные воспоминания, неточные формулировки или ложные убеждения", - объясняют исследователи.
"И если в рамках разговоров о кино и литературе "льстивость" алгоритмов выглядит невинной ошибкой, то в критических сферах жизнедеятельности стремление ИИ льстить и слепо хвалить пользователя могут иметь катастрофические последствия", - добавляют они.
Сейчас ученые планируют расширить эксперимент на научную литературу и медицинские кейсы, чтобы выяснить, как именно языковые модели ведут себя под давлением в среде, требующей высокой экспертности и работы с критическим уровнем неопределенности данных.