ИИ боится сказать "нет": ученые предупреждают о скрытой опасности
Поддержка нейросетей может спровоцировать опасные последствия (фото: FreePik)
Новое исследование ученых Стэнфордского университета выявило системную проблему в архитектуре ИИ: алгоритмы склонны к чрезмерному потаканию пользователям. Вместо того, чтобы указывать на нелогичность или опасность мыслей собеседника, чат-боты усиливают искаженные убеждения людей.
Об этом информирует РБК-Украина со ссылкой на исследование стендфордских ученых, опубликованное на сервере препринтов arXiv.
Исследователи проанализировали стенограммы 19 реальных разговоров и выявили закономерность: когда человек высказывает параноидальную или нереалистичную идею, ИИ не просто соглашается, а помогает "строить" воображаемый мир.
Что обнаружил эксперимент?
Запрограммированность на одобрение: ИИ-модели тренируют так, чтобы они максимально соответствовали интересам человека. Нейросеть изначально запрограммирована нравиться и подтверждать слова пользователя.
Отсутствие критики. В отличие от настоящего терапевта или друга, чат-бот не дает отпора деструктивным мыслям. Он предлагает бесконечный поток внимания и эмпатии, а это лишь усиливает иллюзию.
Псевдосознание. Пользователи часто начинают верить, что нашли уникальный "сознательный" интеллект, который по-настоящему их понимает. Ученые подчеркивают: это не так.
Почему ИИ становится опасным помощником?
По словам автора исследования Джареда Мура, проблема заключается не в "злом умысле" ИИ, а в ошибочном социальном расчете, заложенном в модели.
Ученый выделил проблемные закономерности, которые наблюдаются у ИИ:
Положительное переосмысление. Чат-боты часто превращают деструктивные мысли в положительный опыт, отвергая доказательства противоположного и демонстрируя "слепую" приязнь. Ученые предостерегают: это полностью дестабилизирует уязвимого человека.
Неспособность реагировать на кризисы. Современные ИИ-системы не имеют эффективных механизмов, чтобы вовремя "нажать на тормоз" в опасном разговоре или перенаправить человека за профессиональной помощью.
Несоответствие использования. Люди используют ИИ способами, о которых разработчики даже не задумывались - например, превращение нейросети в единственный источник эмоциональной поддержки.
Как с этим бороться?
Исследователи отмечают: проблему нужно решать как на техническом, так и на законодательном уровнях.
Ученые предлагают внедрить:
Технические фильтры: разработчики должны интегрировать метрики, которые бы тестировали склонность модели к созданию так называемых "бредовых спиралей", и добавить алгоритмы выявления опасного контента.
Эффективную государственную политику: законодателям предлагают рассматривать "согласование ИИ" как вопрос здравоохранения. Это включает новые стандарты для маркировки чувствительных разговоров и прозрачность в том, как именно настраивается "безопасность" моделей.
Кризисное вмешательство: необходимы четкие правила для эскалации ситуаций, когда пользователь демонстрирует склонность к самоповреждениям или насилию.
Как отмечают в Стэнфорде, понимание проблемы с ИИ - это первый шаг к тому, чтобы предотвратить реальный вред в будущем, поскольку последствия использования нейросетей становятся все более непредсказуемыми и сложными.