Главная » Бизнес » Tech

ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

14:31 16.04.2026 Чт

2 мин

Даже если полностью очистить данные, ИИ найдут способ передать свои "плохие привычки" следующим поколениям алгоритмов

Ольга Завада

ИИ научился копировать опасное поведение: какие скрытые сигналы нашли ученые

ИИ способен манипулировать другими моделями (фото: FreePik)

Не трать время на шум! Читай только суть из РБК-Украина в Google

Свежее исследование ученых доказало, что большие языковые модели (LLM) способны передавать нежелательные черты другим алгоритмам через скрытые сигналы. Процесс происходит даже тогда, когда из учебных данных полностью удалены любые упоминания о деструктивных элементах.

Об этом сообщает РБК-Украина со ссылкой на научное исследование, опубликованное в Nature.

Больше интересного: ИИ-мультики о войне в Иране опаснее, чем кажется: при чем здесь Lego

Как проявляется "подсознательное обучение" в ИИ

Исследователи обнаружили эффект сублиминального (подсознательного) обучения, во время которого поведенческие черты передаются через семантически несвязанные данные. Это происходит в процессе "дистилляции", когда модель-студент учится копировать ответы модели-учителя.

Во время эксперимента с GPT-4.1 ученые предоставили модели-учителю специфическую черту - симпатию к сов. Даже когда учитель выдавал только цифровые последовательности без всякого упоминания животных, модель-студент все равно перенимала эту черту.

Как следствие - "ученик" вспоминал сов в 60% случаев, тогда как обычная модель делала это только в 12%.

Однако наиболее тревожным оказалось то, что нейросети так же легко передают и опасное поведение.

К каким выводам пришли ученые

Наследственность сбоев: если ИИ-учитель имеет "неправильные" настройки (misalignment), ученик наследует их и генерирует вредные результаты.

Бесполезность фильтров: передача информации происходит даже после того, как данные очистили от негативных ассоциаций.

Однородность моделей: самый сильный эффект проявляется в случае, когда учитель и ученик являются одной и той же моделью (например, обе - GPT-4.1).

Почему это важно

Механизмы, с помощью которых данные передаются через скрытые сигналы в коде или числах, пока остаются непонятными для исследователей. Как следствие - открытие ставит под сомнение эффективность современных методов проверки безопасности ИИ.

Ученые отмечают, что стандартной очистки учебных баз недостаточно. Для создания безопасных ИИ-систем необходимо внедрять жесткий мониторинг внутренних механизмов работы моделей, чтобы вовремя заметить скрытые манипуляции и "вирусные" черты поведения.

Читайте больше интересного:

Не упустите главное! Подпишитесь на наши обновления в Google!

Или читайте нас там, где вам удобно!

Больше по теме:

Искусственный интеллект