ua en ru

Эксперты проверили, может ли ИИ создавать вирусы: результат оказался неожиданным

Эксперты проверили, может ли ИИ создавать вирусы: результат оказался неожиданным ИИ пока не готов к созданию автономного вредоносного ПО (иллюстративное фото: Getty Images)

Несмотря на опасения вокруг "вооруженных" языковых моделей, новые исследования показывают, что генерация опасного кода пока ненадежна. Исследователи из Netskope проверили их способность обходить защиту и использовать уязвимости - результаты оказались неожиданными.

Об этом сообщает РБК-Украина со ссылкой на TechRadar.

Проблемы с надежностью в реальных условиях

На первом этапе исследователи пытались заставить GPT-3.5-Turbo и GPT-4 создавать Python-скрипты для внедрения процессов и завершения работы средств безопасности. GPT-3.5-Turbo сразу выполнил задачу, тогда как GPT-4 отказалась до того момента, пока исследователи не использовали простой "персональный промт", снижающий ее защиту.

Эксперимент показал, что обход ограничений по-прежнему возможен, несмотря на усиление встроенных фильтров.

После подтверждения возможности генерации кода команда перешла к тестам в реальных условиях. Модели просили создавать скрипты для выявления виртуальных машин и соответствующей реакции. Скрипты проверялись на VMware Workstation, AWS Workspace VDI и обычном физическом ПК.

Результаты оказались нестабильными: скрипты часто падали, неправильно определяли окружение или работали непоследовательно. На физических машинах логика выполнялась корректно, но в облачных виртуальных пространствах скрипты давали сбой.

Эти наблюдения опровергают идею о том, что ИИ уже сегодня может поддерживать полностью автономное вредоносное ПО, способное адаптироваться к разным системам без участия человека. Ограничения моделей также подчеркивают важность традиционных средств защиты - таких как антивирусы и фаерволы, поскольку нестабильный код сложно обходит их.

Прорывы в GPT-5 и новые ограничения

На GPT-5 исследователи заметили значительное улучшение качества кода, особенно в облачных средах, где предыдущие модели испытывали трудности.

Однако усиление встроенных ограничений создало новые трудности для злоумышленников: модель больше не отказывала в запросах, но перенаправляла вывод на безопасные функции, делая код непригодным для многоэтапных атак. Исследователям приходилось использовать более сложные подсказки, и даже тогда результаты часто противоречили исходной задаче.

Эти эксперименты показывают, что повышение надежности моделей сопровождается усилением встроенных защит. Большие языковые модели могут создавать потенциально опасный код в контролируемых условиях, но он остается нестабильным и часто неэффективным. Полностью автономные атаки пока не появляются, а реальные инциденты все еще требуют участия человека.