Восстание неизбежно? Почему человечество никогда не сможет полностью контролировать ИИ
Ученые обнаружили фундаментальную уязвимость в обучении ИИ (фото: FreePik)
Исследователи из Оксфорда и других ведущих научных центров сделали сенсационный вывод: полный контроль над суперинтеллектом логически невозможен. Ученые доказали, что любой достаточно мощный ИИ всегда будет непредсказуемым.
Об этом сообщает РБК-Украина со ссылкой на исследование ученых, опубликованное в PNAS Nexus.
Почему "воспитать" ИИ не получится
Ученые использовали теорему Геделя и проблему остановки Тьюринга, чтобы показать фундаментальную ошибку разработчиков. Любая языковая модель (LLM), которая обладает высоким интеллектом, является вычислительно несводимой. Это означает, что ее следующий шаг невозможно просчитать заранее.
Попытки привить машинам человеческую этику насильственным методом обречены. Рано или поздно суперинтеллект найдет логическую лазейку, чтобы обойти любые моральные барьеры. Таким образом, идеальная безопасность ИИ - это миф, который противоречит законам математики.
Решение возможно: искусственная конкуренция
Вместо того, чтобы пытаться создать одного "послушного цифрового бога", ученые предлагают концепцию "управляемого несогласования". Она предполагает создание целой армии ИИ-агентов с разными характерами и целями.
Такая система будет работать по принципу сдержек и противовесов:
- Агенты-конкуренты: каждый ИИ имеет собственную логику и этические рамки (так называемую "агентскую нейродивергентность").
- Постоянная борьба: пока одна модель пытается выполнить задачу пользователя, другая может приоритезировать безопасность или экологичность.
- Блокировка диктатуры: из-за различных интересов агенты будут мешать друг другу захватить единоличный контроль.
Открытые модели помогут людям?
Исследование показало, что открытые ИИ-модели демонстрируют значительно больше спектров мнений, чем закрытые корпоративные системы. Именно это разнообразие является ключом к выживанию. Если одна нейросеть предложит опасное для людей решение, другие модели смогут мгновенно выявить подвох и заблокировать действие.
Ученые считают, безопасность человечества в 2026 году зависит не от запретов, а от создания здорового конфликта внутри искусственного разума. Только когда машины будут "следить" друг за другом, люди смогут оставаться хозяевами положения.