Исследователи из Оксфорда и других ведущих научных центров сделали сенсационный вывод: полный контроль над суперинтеллектом логически невозможен. Ученые доказали, что любой достаточно мощный ИИ всегда будет непредсказуемым.
Об этом сообщает РБК-Украина со ссылкой на исследование ученых, опубликованное в PNAS Nexus.
Ученые использовали теорему Геделя и проблему остановки Тьюринга, чтобы показать фундаментальную ошибку разработчиков. Любая языковая модель (LLM), которая обладает высоким интеллектом, является вычислительно несводимой. Это означает, что ее следующий шаг невозможно просчитать заранее.
Попытки привить машинам человеческую этику насильственным методом обречены. Рано или поздно суперинтеллект найдет логическую лазейку, чтобы обойти любые моральные барьеры. Таким образом, идеальная безопасность ИИ - это миф, который противоречит законам математики.
Вместо того, чтобы пытаться создать одного "послушного цифрового бога", ученые предлагают концепцию "управляемого несогласования". Она предполагает создание целой армии ИИ-агентов с разными характерами и целями.
Такая система будет работать по принципу сдержек и противовесов:
Исследование показало, что открытые ИИ-модели демонстрируют значительно больше спектров мнений, чем закрытые корпоративные системы. Именно это разнообразие является ключом к выживанию. Если одна нейросеть предложит опасное для людей решение, другие модели смогут мгновенно выявить подвох и заблокировать действие.
Ученые считают, безопасность человечества в 2026 году зависит не от запретов, а от создания здорового конфликта внутри искусственного разума. Только когда машины будут "следить" друг за другом, люди смогут оставаться хозяевами положения.