Редактирование изображений словами: pixel-perfect ассистент Malvina от Сбера

Сбер представил Malvina — мультимодального ассистента для интеллектуального редактирования изображений на естественном языке, который уже интегрирован в сервис GigaChat и, по оценкам пользователей, опережает такие модели, как GPT-4o, Gemini и Grok по качеству popиксельного редактирования. Главное отличие Malvina — возможность вносить точечные изменения без искажения остальных участков изображения, работая только с текстовым промптом (без масок и ключевых точек).

Malvina основана на диффузионной архитектуре с применением собственной VLM (Visual Language Model), что позволяет модели выполнять сложные семантические, стилистические и структурные трансформации: добавление, удаление и замену объектов, изменение эмоций, стиля, фона, а также реалистичную реставрацию и колоризацию фото. Для обучения использовано более 1,5 млн пар изображений и разнообразные наборы данных (от UltraEdit до специально сгенерированных случаев).

В сравнении с крупнейшими мировыми моделями, Malvina показала лучшие результаты в SBS-тестах (side-by-side) по целому ряду задач: удаление и замена объектов, реставрация, стилизация, работа с текстами и аксессуарами на фото. Ключевое преимущество — сохранение идентичности людей и объектов, без «перерисовки по мотивам», характерной для AR-моделей. Новый сервис уже доступен всем желающим в Telegram-боте GigaChat, а команда планирует дальнейшее развитие — поддержка мультиязычного текста, загрузка референсов и новые форматы редактирования.

← Назад в лентуЧитать оригинал →