Исследователи Apple представили обновленную версию модели UniGen - UniGen-1.5, способную одновременно понимать, генерировать и редактировать изображения в рамках единой системы.
Об этом сообщает РБК-Украина со ссылкой на профильный ресурс 9to5Mac.
В мае прошлого года команда Apple опубликовала исследование под названием UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. В нем впервые была представлена единая мультимодальная большая языковая модель, которая объединяет понимание и генерацию изображений, не разделяя эти задачи на отдельные системы.
Теперь Apple опубликовала продолжение исследования - статью о UniGen-1.5.
UniGen-1.5 расширяет возможности оригинальной модели, добавляя функции редактирования изображений, сохраняя при этом единую архитектуру для понимания, генерации и редактирования.
Создание такой универсальной системы - непростая задача, поскольку понимание и генерация изображений требуют разных подходов. Тем не менее, исследователи утверждают, что единая модель может использовать свои способности к пониманию для улучшения генерации.
Одной из ключевых проблем редактирования изображений является то, что модели часто сложно корректно интерпретировать сложные инструкции, особенно если изменения тонкие или специфические.
Для решения этой задачи в UniGen-1.5 введен новый этап - Edit Instruction Alignment: исследователи обучают модель формировать подробное текстовое описание того, каким должно быть отредактированное изображение. Этот промежуточный шаг помогает модели лучше "понять" задачу до генерации финального результата.
Ключевым вкладом UniGen-1.5 стало использование одной и той же системы наград для генерации и редактирования изображений. Ранее это было проблемой, так как редактирование может включать как небольшие изменения, так и полные трансформации.
Однако исследователи отмечают, что UniGen-1.5 пока испытывает трудности с генерацией текста и поддержанием идентичности объектов:
Исследователи подчеркивают, что модель нуждается в дальнейшей доработке для устранения этих ограничений.
