Главная » Бизнес » Tech

ИИ научился "прятать" оскорбления в мемах и картинках: популярные фильтры оказались бессильны

14:09 17.04.2026 Пт

2 мин

ИИ-генераторы научились встраивать токсичные надписи в мемы так, что их практически невозможно отмодерировать

Ольга Завада

ИИ научился "прятать" оскорбления в мемах и картинках: популярные фильтры оказались бессильны

ИИ научился "прятать" ругательства в мемы (фото: FreePik)

Не трать время на шум! Читай только суть из РБК-Украина в Google

ИИ-креаторы, среди которых и Stable Diffusion, оказались в центре скандала из-за опасной уязвимости. Оказалось, что стандартные системы безопасности "ослепли": они распознают визуальную картинку, однако совершенно "не понимают" содержания текста, который ИИ "вшивает" в изображение.

Об этом пишет РБК-Украина со ссылкой на исследование CISPA.

Больше интересного: Без русской озвучки и с Москвой в огне: что известно о Metro 2039

Ученые объяснили, почему проблема оказалась значительно глубже, чем считалось: современные детекторы (NSFW) настроены на поиск визуальных запретов, однако игнорируют семантику.

Что это значит:

Текстовый камуфляж - ИИ воспринимает буквы как набор линий. Для алгоритма это часть рисунка, а для пользователя - прямое оскорбление или дискриминация.
Массовый обход модерации - злоумышленники научились использовать простые промпты, которые заставляют нейросеть создавать токсичные мемы. Такие "творения" легко проходят проверку соцсетей.
Отсутствие "разума" - стандартные системы не имеют речевого интеллекта, поэтому любая надпись на фото для них является безопасной по умолчанию.

Оружие против ИИ-токсика

Чтобы остановить распространение опасных изображений, был разработан датасет ToxicBench, который выложили в свободный доступ на GitHub.

Как работает технология?

Мгновенное сканирование - система автоматически "извлекает" все надписи с картинки с помощью OCR-технологий.
Анализ токсичности - специальный классификатор мгновенно проверяет каждое слово на соответствие этическим нормам.
Интеллектуальная подмена - вместо ошибки, ИИ подменяет "грязное" слово визуально похожим, но нейтральным по смыслу понятием.

Настройка ИИ по-новому

Вместо того, чтобы строить внешние фильтры, авторы изменили сами внутренние слои модели. Это позволило сохранить фотореализм и скорость генерации, одновременно сделав ИИ "воспитанным".

Исследователи отмечают: ToxicBench является критически важным для образовательных платформ и публичных сервисов, которые используют открытые модели ИИ. Следующим шагом ученых станет полная очистка видеогенераторов нового поколения от любого токсичного воздействия.

Еще больше интересного:

Не упустите главное! Подпишитесь на наши обновления в Google!

Или читайте нас там, где вам удобно!

Больше по теме:

Искусственный интеллект