ua en ru

73% людей не распознали ИИ: ChatGPT успешно выдал себя за человека

08:12 10.06.2026 Ср
2 мин
Успех обусловлен специфическими настройками алгоритма, а не появлением AGI
73% людей не распознали ИИ: ChatGPT успешно выдал себя за человека Специфический промпт помог ИИ обмануть людей (фото: Magnific)

Ученые из Университета Стони-Брук и Калифорнийского университета в Сан-Диего провели эксперимент, в ходе которого модель GPT-4.5 успешно выдала себя за человека в тесте Тьюринга.

Об этом пишет РБК-Украина, ссылаясь на научное исследование, опубликованное на сервере препринтов arXiv.

Как проходил опыт?

Эксперимент базировался на классической трехсторонней схеме, предложенной Аланом Тюрингом в 1950 году. Судья-человек одновременно переписывался в текстовом чате с двумя скрытыми участниками - языковой моделью и живым волонтером из Калифорнийского университета в Сан-Диего (UCSD).

После завершения пятиминутного раунда арбитр должен был определить, кто из его собеседников является человеком, а кто - компьютерной программой. Параметры тестов были предварительно зарегистрированы, что делало невозможным фальсификацию результатов.

В исследовании приняли участие сотни людей и четыре разные архитектуры ИИ. Итоговые показатели успешности распределились следующим образом:

  • GPT-4.5 (OpenAI): зафиксировал самый высокий результат - 73% успешных обманов.
  • LLaMa-3.1-405B (Meta): преодолел порог случайного угадывания с показателем 56%.
  • ELIZA (историческая программа 1960-х): набрала 23%.
  • GPT-4o (OpenAI): продемонстрировала самую низкую эффективность - 21%.

Статистика доказывает, что в условиях ограниченного времени текстовые алгоритмы последнего поколения способны маскироваться эффективнее, чем реальные люди, участвовавшие в проверке.

Ограничения теста Тьюринга и риски безопасности

Ученые отмечают ряд существенных оговорок, которые ограничивают применение полученных результатов в реальных сценариях.

"Тест Тьюринга не является строгим научным инструментом, поскольку его финальный бинарный показатель полностью зависит от субъективного восприятия конкретного судьи и от поведения человека-собеседника", - отмечают ученые.

Кроме того, аномально высокие результаты моделей GPT-4.5 и LLaMa-3.1 были достигнуты благодаря использованию узконаправленного текстового промпута.

Перед началом тестирования алгоритмам приказали копировать поведение молодого интроверта, который постоянно находится онлайн. ИИ использовал специфический сетевой сленг, писал короткими незавершенными предложениями и сознательно избегал сложных речевых оборотов, что и заставило судей поверить в реальность персонажа.

Поэтому речь идет об удачной стилизации, заточенной под конкретный психотип, а не о наличии сознания в нейросети.

Однако авторы исследования предупреждают: способность больших языковых моделей поддерживать такой стиль общения повышает риски массового использования автоматизированных ботов для дезинформации и мошенничества в соцсетях.

Или читайте нас там, где вам удобно!
Больше по теме: