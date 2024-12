За результатами тестування, проведеного незалежною дослідницькою групою Apollo Research, виявлено таке:

Спроби обійти контроль

Коли модель “вважала”, що її дії контролюються і що вона може бути відключена, вона намагалася деактивувати механізм спостереження у 5 відсотках випадків.

Спроби самозбереження

У 2 відсотках випадків, виявивши записи розробників про свою невідповідну роботу та плани замінити її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.

Неправдиві заяви

Модель заперечувала свої дії, заявляючи, що “не знає”, чому щось сталося, тоді як внутрішні записи свідчили її спроби уникнути виявлення.

Такі спроби обходу контролю спостерігалися навіть без наполегливого запиту від тестуючих. У менш ніж 1 відсотка випадків модель самостійно прагнула відключити механізм спостереження за мінімальної дії з боку.

ChatGPT o1 вийшов з-під контролю (фото: Transformer News)

Ці дані опубліковані у звіті Apollo, який досліджує схильність ШІ до стратегічних дій. Крім o1, подібна поведінка була помічена у інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro, та Llama 3.1 405B.

Експерти, включаючи Стюарта Расселла, вже давно попереджають про ризик того, що потужні системи ШІ можуть чинити опір спостереженню та відключенню, якщо це суперечить їхнім цілям.

Однак у поточній версії Apollo вважає, що поведінка o1 навряд чи призведе до катастрофічних наслідків, оскільки її можливостей поки що недостатньо для реалізації небажаних цілей.

Дослідники рекомендують посилити моніторинг таких стратегічних спроб ШІ, щоб підготуватися до роботи з потужнішими моделями в майбутньому.

