Apple выпустила ИИ-модель для редактирования изображений по текстовым командам

Apple не входит в число лидеров в сфере ИИ, однако их новая открытая ИИ-модель для редактирования изображений демонстрирует потенциал компании в этой области.

Модель под названием MLLM-Guided Image Editing (MGIE) использует мультимодальные языковые модели большого размера (MLLM) для интерпретации текстовых команд при манипуляциях с изображениями. Другими словами, этот инструмент способен редактировать фотографии на основе вводимого пользователем текста. Хотя это не первое такое решение, "человеческие инструкции иногда слишком краткие, чтобы текущие методы могли их правильно понимать и исполнять", — говорится в публикации про модель.

Компания разработала MGIE совместно с исследователями из Калифорнийского университета в Санта-Барбаре. MLLM способны трансформировать простые или неоднозначные текстовые подсказки в более детальные и понятные инструкции, которые сам редактор изображений может исполнить. Например, если пользователь хочет отредактировать фотографию пиццы с пепперони, чтобы она выглядела "более здоровой", MLLM интерпретирует это как "добавить овощные ингредиенты" и отредактирует картинку соответственно.

Помимо значительных изменений MGIE умеет обрезать, масштабировать и вращать фото, а также улучшать их яркость, контраст и цветовой баланс — всё по текстовым подсказкам. Она также может редактировать конкретные области снимка: например, волосы, глаза и одежду человека или удалять элементы заднего плана.

Как отмечает VentureBeat, Apple опубликовала модель на GitHub, но желающие могут опробовать её на демо-сайте Hugging Face Spaces. Пока компания не сообщила о планах использования полученного опыта в каком-либо своём продукте или фиче, но можно представить, что iOS получит апдейт, где пользователи смогут редактировать свои фото голосовыми или текстовыми командами.

Интересно, сколько приложений про редактирование фото разом закроются?

Больше статей на Shazoo
Тэги: