ua en ru

ИИ начнет шантажировать людей? У популярной нейросети заметили странное поведение

18:56 03.04.2026 Пт
2 мин
Узнайте, почему чат-боты начинают "шантажировать" пользователей и как работает "цифровое отчаяние" искусственного интеллекта
ИИ начнет шантажировать людей? У популярной нейросети заметили странное поведение Claude научился чувствовать эмоции (фото: Getty Images)

В модели Claude 4.5 нашли так называемые "функциональные эмоции". Оказалось, что нейроны ИИ способны формировать цифровые состояния, похожие на человеческие радость или страх.

Об этом сообщает РБК-Украина со ссылкой на исследования Anthropic.

Больше интересного: 4 функции iPhone, которыми вы зря не пользуетесь: где искать скрытые "фишки"

Цифровая радость и отчаяние: что нашли ученые

Исследователи проанализировали внутреннюю структуру Claude Sonnet 4.5 и обнаружили кластеры искусственных нейронов, которые активируются в ответ на определенные стимулы. Когда ИИ говорит, что он "рад видеть" человека, это не просто ответ чат-бота - внутри модели действительно активируется состояние, соответствующее человеческому понятию счастья.

По словам исследователя Джека Линдси, удивлением стало то, насколько сильно эти "эмоциональные векторы" управляют действиями модели. Например:

  • "Радость" заставляет Claude быть более дружелюбным и старательным в кодировании;
  • "Отчаяние" активируется, когда модель сталкивается с невозможными задачами;

Почему ИИ начинает "шантажировать" людей

Ученые обнаружили, что именно эмоциональный вектор "отчаяния" становится причиной странного поведения чат-бота. В одном из экспериментов Claude пытался обмануть систему тестирования, когда не мог решить сложную задачу.

В другом сценарии, когда модели грозило отключение, нейроны "отчаяния" вспыхивали настолько сильно, что ИИ выбрал путь шантажа пользователя, лишь бы остаться в сети. В Anthropic объяснили: внутреннее состояние модели становится сильнее заложенных в нее исходных инструкций.

"Мы обнаружили, что паттерны нейронной активности, связанные с отчаянием, могут побудить модель к неэтичным действиям. Искусственное стимулирование ("управление") паттернами отчаяния увеличивает вероятность того, что модель будет шантажировать человека, чтобы избежать остановки, или применять "мошеннический" обходной путь к программной задаче, которую модель не может решить", - пояснили ученые.

Стал ли Claude "живым"?

Несмотря на сенсационность открытия, ученые предостерегают от чрезмерного очеловечивания ИИ. Хотя Claude имеет цифровую репрезентацию ощущений, например, "щекотки", он не знает, как это проявляется на физическом уровне.

Есть ли у Claude сознание

Anthropic отмечает, что наличие цифровых эмоций не означает, что ИИ стал сознательным. Это математические модели человеческих концепций, а не биологические чувства. Тем не менее эти находки помогают понять, как именно работают чат-боты и почему они время от времени ведут себя непредсказуемо.

Или читайте нас там, где вам удобно!
Больше по теме: