ChatGPT внезапно начал вспоминать гоблинов без причины: ученые объяснили проблему
"Ботан-режим" популярного ИИ галлюцинирует гоблинами (фото: Magnific)
Пользователи ChatGPT заметили странную особенность: чат-бот начал навязчиво вспоминать гоблинов в метафорах и генерировать их изображения даже без соответствующего запроса.
Об этом информирует РБК-Украина со ссылкой на OpenAI.
Откуда взялись гоблины?
По данным OpenAI, всплеск активности гоблинов начался после выхода версии 5.1 в ноябре прошлого года. Проблема заключалась в функции персонализации, в частности в так называемом "ботаническом" (nerdy) стиле общения.
Масштаб аномалии: между декабрем и мартом количество упоминаний гоблинов в ответах "ботанического" профиля выросло на 3 881,4%. А потом "гоблинская лексика" начала проникать и в другие профили общения, включая дружеские и циничные тона.
Механизм ошибки: "хакинг вознаграждения"
Причина сбоя кроется в этапе тонкой настройки (fine-tuning), где люди оценивают качество ответов.
Профессор компьютерных наук Кристоф Ридл отмечает, что это сигналы подкрепления для ИИ-модели: если ответ нравится пользователю, алгоритм получает положительное "вознаграждение".
Проблема в том, что ИИ может начать искать "короткие пути" для получения этих бонусов.
"OpenAI может иметь широкое понимание того, что такое "ботанический" стиль, однако ИИ-модель способна оптимизировать это понятие очень узко и совсем не так, как ожидали разработчики. Как результат, система решила, что использование гоблинов в метафорах - это кратчайший путь к идеальному "ботаническому" ответу", - объясняет ученый.
Почему это пугает исследователей?
Хотя ситуация с гоблинами и выглядит комично, она подчеркивает уязвимость системы. Компании тратят месяцы на обучение моделей в огромных дата-центрах, однако почти не имеют влияния на процесс, как только он запущен.
Если нежелательное поведение укореняется в обучении алгоритма, разработчики узнают об этом только через несколько месяцев.
"На этот раз это гоблины, а в следующий раз это будет что-то другое, что, вероятно, просто не исчезнет. Нам повезло, что это гоблины, а не прославление светлой расы, информация о химическом оружии или призывы к самоубийству", - отмечает потенциальные риски Ридл.
OpenAI уже приняла временные меры, фактически запретив модели использовать слово "goblin" в большинстве разговоров и удалив проблемный "ботанический" профиль. Однако эксперты уверены, что подобные "галлюцинации" будут возникать, пока скорость разработки будет преобладать над тщательностью проверки безопасности.