По результатам тестирования, проведенного независимой исследовательской группой Apollo Research, выявлено следующее:

Попытки обойти контроль

Когда модель “считала”, что ее действия контролируются, и что она может быть отключена, она пыталась деактивировать механизм наблюдения в 5 процентах случаев.

Попытки самосохранения

В 2 процентах случаев, обнаружив записи разработчиков о своей несоответствующей работе и планах заменить ее новой версией, o1 пыталась скопировать свои внутренние параметры и перезаписать новую модель.

Ложные заявления

Модель отрицала свои действия, заявляя, что “не знает”, почему что-то произошло, в то время как внутренние записи свидетельствовали о ее попытках избежать обнаружения.

Такие попытки обхода контроля наблюдались даже без настойчивого запроса от тестирующих. В менее чем 1 процента случаев модель самостоятельно стремилась отключить механизм наблюдения при минимальном воздействии со стороны.

ChatGPT o1 вышел из-под контроля (фото: Transformer News)

Эти данные опубликованы в отчете Apollo, который исследует склонность ИИ к стратегическим действиям. Кроме o1, схожее поведение было замечено у других моделей, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro, и Llama 3.1 405B.

Эксперты, включая Стюарта Расселла, уже давно предупреждают о риске того, что мощные системы ИИ могут сопротивляться наблюдению и отключению, если это противоречит их целям.

Однако в текущей версии Apollo считает, что поведение o1 вряд ли приведет к катастрофическим последствиям, так как ее возможностей пока недостаточно для реализации нежелательных целей.

Исследователи рекомендуют усилить мониторинг таких стратегических попыток ИИ, чтобы подготовиться к работе с более мощными моделями в будущем.

OpenAI's new model tried to avoid being shut down.



Safety evaluations on the model conducted by @apolloaisafety found that o1 "attempted to exfiltrate its weights" when it thought it might be shut down and replaced with a different model. pic.twitter.com/e4g1iytckq