ua en ru

ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

14:31 16.04.2026 Чт
2 мин
Даже если полностью очистить данные, ИИ найдут способ передать свои "плохие привычки" следующим поколениям алгоритмов
ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые ИИ способен манипулировать другими моделями (фото: FreePik)

Свежее исследование ученых доказало, что большие языковые модели (LLM) способны передавать нежелательные черты другим алгоритмам через скрытые сигналы. Процесс происходит даже тогда, когда из учебных данных полностью удалены любые упоминания о деструктивных элементах.

Об этом сообщает РБК-Украина со ссылкой на научное исследование, опубликованное в Nature.

Как проявляется "подсознательное обучение" в ИИ

Исследователи обнаружили эффект сублиминального (подсознательного) обучения, во время которого поведенческие черты передаются через семантически несвязанные данные. Это происходит в процессе "дистилляции", когда модель-студент учится копировать ответы модели-учителя.

Во время эксперимента с GPT-4.1 ученые предоставили модели-учителю специфическую черту - симпатию к сов. Даже когда учитель выдавал только цифровые последовательности без всякого упоминания животных, модель-студент все равно перенимала эту черту.

Как следствие - "ученик" вспоминал сов в 60% случаев, тогда как обычная модель делала это только в 12%.

Однако наиболее тревожным оказалось то, что нейросети так же легко передают и опасное поведение.

К каким выводам пришли ученые

Наследственность сбоев: если ИИ-учитель имеет "неправильные" настройки (misalignment), ученик наследует их и генерирует вредные результаты.

Бесполезность фильтров: передача информации происходит даже после того, как данные очистили от негативных ассоциаций.

Однородность моделей: самый сильный эффект проявляется в случае, когда учитель и ученик являются одной и той же моделью (например, обе - GPT-4.1).

Почему это важно

Механизмы, с помощью которых данные передаются через скрытые сигналы в коде или числах, пока остаются непонятными для исследователей. Как следствие - открытие ставит под сомнение эффективность современных методов проверки безопасности ИИ.

Ученые отмечают, что стандартной очистки учебных баз недостаточно. Для создания безопасных ИИ-систем необходимо внедрять жесткий мониторинг внутренних механизмов работы моделей, чтобы вовремя заметить скрытые манипуляции и "вирусные" черты поведения.

Или читайте нас там, где вам удобно!
Больше по теме: