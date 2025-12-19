Об этом сообщает РБК-Украина со ссылкой на профильный ресурс 9to5Mac .

От UniGen к UniGen-1.5

В мае прошлого года команда Apple опубликовала исследование под названием UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation. В нем впервые была представлена единая мультимодальная большая языковая модель, которая объединяет понимание и генерацию изображений, не разделяя эти задачи на отдельные системы.

Теперь Apple опубликовала продолжение исследования - статью о UniGen-1.5.

Что нового в UniGen-1.5

UniGen-1.5 расширяет возможности оригинальной модели, добавляя функции редактирования изображений, сохраняя при этом единую архитектуру для понимания, генерации и редактирования.

Создание такой универсальной системы - непростая задача, поскольку понимание и генерация изображений требуют разных подходов. Тем не менее, исследователи утверждают, что единая модель может использовать свои способности к пониманию для улучшения генерации.

Принцип работы UniGen-1.5 (фото: 9to5Mac)

Одной из ключевых проблем редактирования изображений является то, что модели часто сложно корректно интерпретировать сложные инструкции, особенно если изменения тонкие или специфические.

Для решения этой задачи в UniGen-1.5 введен новый этап - Edit Instruction Alignment: исследователи обучают модель формировать подробное текстовое описание того, каким должно быть отредактированное изображение. Этот промежуточный шаг помогает модели лучше "понять" задачу до генерации финального результата.

Возможности UniGen-1.5 (фото: 9to5Mac)

Единая система наград

Ключевым вкладом UniGen-1.5 стало использование одной и той же системы наград для генерации и редактирования изображений. Ранее это было проблемой, так как редактирование может включать как небольшие изменения, так и полные трансформации.

Ограничения

Однако исследователи отмечают, что UniGen-1.5 пока испытывает трудности с генерацией текста и поддержанием идентичности объектов:

модель не всегда корректно отображает текст на изображениях из-за ограничений легкого детокенизатора

иногда заметны изменения в деталях внешности объектов, например текстуры шерсти кошки или цвета перьев птицы.

Исследователи подчеркивают, что модель нуждается в дальнейшей доработке для устранения этих ограничений.