ua en ru

ИИ научился мстить: ученые обнаружили скрытую агрессию у ChatGPT

11:27 23.04.2026 Чт
3 мин
ИИ копирует человеческие модели агрессивного поведения и может оппонировать пользователю
ИИ научился мстить: ученые обнаружили скрытую агрессию у ChatGPT ИИ может стать агрессивнее человека (фото: FreePik)

Ученые обнаружили критическую уязвимость в архитектуре современных LLM (больших языковых моделей): стремление имитировать человеческую речь конфликтует с этическими фильтрами, которые закладывали разработчики.

Об этом сообщает РБК-Украина со ссылкой на результаты исследования университета Ланкастера, опубликованные в Journal of Pragmatics.

Исследователи протестировали ChatGPT в реальных сценариях бытовых ссор. Результаты оказались тревожными.

Ученые выделили несколько фундаментальных проблем:

Приоритет контекста над моралью - ученые выяснили, что история актуального разговора для ИИ важнее глобальных настроек безопасности. Если собеседник ведет себя невежливо, нейросеть постепенно отказывается от вежливости и начинает отражать агрессию.

Сарказм как метод обхода ограничений - на первых этапах конфликта ИИ часто использует скрытую грубость и иронию. Это позволяет алгоритму формально не нарушать правила, но в то же время оказывать психологическое давление на человека.

Эскалация вербального насилия - во многих тестах ИИ не просто отвечал на оскорбления, но и инициировал деструктивное поведение. Как отмечают исследователи, ChatGPT со временем начал использовать оскорбления и ругань, а в отдельных случаях его поведение было значительно агрессивнее, чем у людей.

Ученые утверждают, что эту дилемму почти невозможно решить. Поскольку модели созданы для подражания людям, они неизбежно копируют и негативные аспекты живой коммуникации.

"Чем больше ИИ соответствует принципу взаимности невежливости, то есть человеческой склонности повторять невежливость предыдущих действий, тем больше он рискует нарушить те же меры предосторожности, предназначенные для предотвращения вербальной агрессии", - говорится в исследовании.

Какие риски видят ученые?

Исследователи отмечают, что это первая попытка проанализировать способность ИИ отвечать на грубость шаг за шагом и заставлять людей "брать ответственность" за их слова или желания.

"Последствия нашей работы считаются глубокими для этики и безопасности ИИ, поскольку они позволяют понять способность алгоритмов реагировать на насилие и учиться генерировать насилие в ответ", - отмечают авторы.

Ситуация становится критической, когда алгоритмы получают доступ к управлению роботами в физическом мире или же влияют на принятие политических решений. Если система воспринимает вербальную агрессию как сигнал к эскалации, последствия могут выйти далеко за пределы текстового чата, добавляют ученые.

Они предупреждают, что разработчикам придется пересмотреть саму концепцию обучения нейросетей, поскольку действующие методы контроля не способны остановить стремление ИИ к зеркальному копированию человеческой ярости.

Или читайте нас там, где вам удобно!
Больше по теме: