ИИ-креаторы, среди которых и Stable Diffusion, оказались в центре скандала из-за опасной уязвимости. Оказалось, что стандартные системы безопасности "ослепли": они распознают визуальную картинку, однако совершенно "не понимают" содержания текста, который ИИ "вшивает" в изображение.
Об этом пишет РБК-Украина со ссылкой на исследование CISPA.
Ученые объяснили, почему проблема оказалась значительно глубже, чем считалось: современные детекторы (NSFW) настроены на поиск визуальных запретов, однако игнорируют семантику.
Что это значит:
Чтобы остановить распространение опасных изображений, был разработан датасет ToxicBench, который выложили в свободный доступ на GitHub.
Вместо того, чтобы строить внешние фильтры, авторы изменили сами внутренние слои модели. Это позволило сохранить фотореализм и скорость генерации, одновременно сделав ИИ "воспитанным".
Исследователи отмечают: ToxicBench является критически важным для образовательных платформ и публичных сервисов, которые используют открытые модели ИИ. Следующим шагом ученых станет полная очистка видеогенераторов нового поколения от любого токсичного воздействия.