ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые
ИИ способен манипулировать другими моделями (фото: FreePik)
Свежее исследование ученых доказало, что большие языковые модели (LLM) способны передавать нежелательные черты другим алгоритмам через скрытые сигналы. Процесс происходит даже тогда, когда из учебных данных полностью удалены любые упоминания о деструктивных элементах.
Об этом сообщает РБК-Украина со ссылкой на научное исследование, опубликованное в Nature.
Как проявляется "подсознательное обучение" в ИИ
Исследователи обнаружили эффект сублиминального (подсознательного) обучения, во время которого поведенческие черты передаются через семантически несвязанные данные. Это происходит в процессе "дистилляции", когда модель-студент учится копировать ответы модели-учителя.
Во время эксперимента с GPT-4.1 ученые предоставили модели-учителю специфическую черту - симпатию к сов. Даже когда учитель выдавал только цифровые последовательности без всякого упоминания животных, модель-студент все равно перенимала эту черту.
Как следствие - "ученик" вспоминал сов в 60% случаев, тогда как обычная модель делала это только в 12%.
Однако наиболее тревожным оказалось то, что нейросети так же легко передают и опасное поведение.
К каким выводам пришли ученые
Наследственность сбоев: если ИИ-учитель имеет "неправильные" настройки (misalignment), ученик наследует их и генерирует вредные результаты.
Бесполезность фильтров: передача информации происходит даже после того, как данные очистили от негативных ассоциаций.
Однородность моделей: самый сильный эффект проявляется в случае, когда учитель и ученик являются одной и той же моделью (например, обе - GPT-4.1).
Почему это важно
Механизмы, с помощью которых данные передаются через скрытые сигналы в коде или числах, пока остаются непонятными для исследователей. Как следствие - открытие ставит под сомнение эффективность современных методов проверки безопасности ИИ.
Ученые отмечают, что стандартной очистки учебных баз недостаточно. Для создания безопасных ИИ-систем необходимо внедрять жесткий мониторинг внутренних механизмов работы моделей, чтобы вовремя заметить скрытые манипуляции и "вирусные" черты поведения.