ИИ уже невозможно отличить от человека: что показал новый тест Тьюринга
Нейросети побеждают в тестах благодаря человеческим ошибкам (фото: Unsplash)
Ученые из Калифорнийского университета в Сан-Диего получили первые веские доказательства того, что современный ИИ способен успешно пройти тест Тьюринга. Во время суровых экспериментов люди часто не могли отличить ответы передовых нейросетей от реплик реальных собеседников.
Об этом сообщает РБК-Украина, ссылаясь на научное исследование, опубликованное в Proceedings of the National Academy of Sciences.
Эксперимент "человек против машины"
Для проведения тестов исследователи создали специальный онлайн-сайт, который внешне напоминал обычный мессенджер для смартфонов. Участник эксперимента (экзаменатор) видел перед собой разделенный экран и одновременно переписывался с двумя скрытыми собеседниками. Один из них был живым человеком, а другой - ИИ-моделью
Короткие текстовые разговоры длились 5 минут (в отдельных тестах время увеличивали до 15 минут). После завершения диалога экзаменатор должен был четко ответить, кто из двух его собеседников является настоящим человеком. Всего в экспериментах приняли участие почти 500 человек - студенты университета и независимые онлайн-пользователи.
Какие модели ИИ справились с задачей лучше всего?
Ученые протестировали несколько разных по возрасту и мощности нейросетей.
Результаты распределились следующим образом:
GPT-4.5 (лидер теста): ИИ назвали человеком в 73% случаев.
"Это феноменальный результат, ведь робота путали с человеком значительно чаще, чем выбирали реального живого участника", - говорят ученые.
LLaMa-3.1-405B: эту модель признали человеком в 56% случаев.
"С точки зрения статистики, люди вообще не заметили разницы между этим ИИ и настоящим участником", - уточнили исследователи.
Базовые и старые модели: классический бот 1960-х годов ELIZA (23%) и популярная модель GPT-4o (21%) полностью провалили экзамен - их "раскусили" почти сразу.
Почему ИИ побеждает?
Профессор Бен Берген, один из авторов исследования, отметил, что теперь тест Тьюринга изменил свой смысл.
"Раньше он считался мерилом ума и знаний компьютера. Однако современный ИИ уже сейчас ищет информацию быстрее и точнее людей", - заявил исследователь.
Оказалось, новые модели проходят тест не благодаря энциклопедическим знаниям, а благодаря копированию человеческих слабостей: они делают опечатки, используют специфический юмор и демонстрируют эмоции.
Для этого ученые давали ИИ специальные инструкции (команды-характеристики) перед началом чата. Без таких детальных подсказок результаты моделей существенно падали - так, GPT-4.5 сразу "скатилась" до 36% успешных показателей.
Ученые предупреждают о больших рисках появления "фальшивых людей" в интернете. Если робота невозможно отличить от человека за 15 минут глубокого разговора, злоумышленники могут использовать таких ботов для массового обмана: выманивания номеров документов, агитации голосовать за определенные политические силы или скрытой рекламы товаров под видом советов от обычных пользователей.