Главная » Бизнес » Tech

73% людей не распознали ИИ: ChatGPT успешно выдал себя за человека

08:12 10.06.2026 Ср

2 мин

Успех обусловлен специфическими настройками алгоритма, а не появлением AGI

Ольга Завада

73% людей не распознали ИИ: ChatGPT успешно выдал себя за человека

Специфический промпт помог ИИ обмануть людей (фото: Magnific)

Не трать время на шум! Читай только суть из РБК-Украина в Google

Ученые из Университета Стони-Брук и Калифорнийского университета в Сан-Диего провели эксперимент, в ходе которого модель GPT-4.5 успешно выдала себя за человека в тесте Тьюринга.

Об этом пишет РБК-Украина, ссылаясь на научное исследование, опубликованное на сервере препринтов arXiv.

Как проходил опыт?

Эксперимент базировался на классической трехсторонней схеме, предложенной Аланом Тюрингом в 1950 году. Судья-человек одновременно переписывался в текстовом чате с двумя скрытыми участниками - языковой моделью и живым волонтером из Калифорнийского университета в Сан-Диего (UCSD).

После завершения пятиминутного раунда арбитр должен был определить, кто из его собеседников является человеком, а кто - компьютерной программой. Параметры тестов были предварительно зарегистрированы, что делало невозможным фальсификацию результатов.

В исследовании приняли участие сотни людей и четыре разные архитектуры ИИ. Итоговые показатели успешности распределились следующим образом:

GPT-4.5 (OpenAI): зафиксировал самый высокий результат - 73% успешных обманов.
LLaMa-3.1-405B (Meta): преодолел порог случайного угадывания с показателем 56%.
ELIZA (историческая программа 1960-х): набрала 23%.
GPT-4o (OpenAI): продемонстрировала самую низкую эффективность - 21%.

Статистика доказывает, что в условиях ограниченного времени текстовые алгоритмы последнего поколения способны маскироваться эффективнее, чем реальные люди, участвовавшие в проверке.

Читайте больше: ИИ-система Китая самостоятельно анализировать военные цели со спутников: что известно о разработке

Ограничения теста Тьюринга и риски безопасности

Ученые отмечают ряд существенных оговорок, которые ограничивают применение полученных результатов в реальных сценариях.

"Тест Тьюринга не является строгим научным инструментом, поскольку его финальный бинарный показатель полностью зависит от субъективного восприятия конкретного судьи и от поведения человека-собеседника", - отмечают ученые.

Кроме того, аномально высокие результаты моделей GPT-4.5 и LLaMa-3.1 были достигнуты благодаря использованию узконаправленного текстового промпута.

Перед началом тестирования алгоритмам приказали копировать поведение молодого интроверта, который постоянно находится онлайн. ИИ использовал специфический сетевой сленг, писал короткими незавершенными предложениями и сознательно избегал сложных речевых оборотов, что и заставило судей поверить в реальность персонажа.

Поэтому речь идет об удачной стилизации, заточенной под конкретный психотип, а не о наличии сознания в нейросети.

Однако авторы исследования предупреждают: способность больших языковых моделей поддерживать такой стиль общения повышает риски массового использования автоматизированных ботов для дезинформации и мошенничества в соцсетях.

Еще больше интересного:

Не упустите главное! Подпишитесь на наши обновления в Google!

Или читайте нас там, где вам удобно!

Больше по теме:

Искусственный интеллект