Stable Diffusion 3.5 улучшает точность следования промптам и генерирует более разнообразных людей

Коэн (NoW)

12:30, 23 октября 2024

Открытая альтернатива таким генераторам изображений, как Midjourney и DALL-E, — Stable Diffusion — обновилась до версии 3.5.

Новая модель направлена на исправление ошибок прошлых версий, особенно Stable Diffusion 3 Medium. По словам Stability AI, версия 3.5 лучше соблюдает промпты (текстовые запросы) и может конкурировать с гораздо более масштабными моделями по качеству изображений. Кроме того, новая модель настроена на создание более разнообразных стилей, оттенков кожи и черт лица без необходимости специально указывать это в запросе.

Модель представлена в трех вариантах:

Stable Diffusion 3.5 Large — самая мощная версия, которая обеспечивает высочайшее качество изображений и лидирует в индустрии по точности выполнения запросов. Подходит для профессионального использования при разрешении до 1 мегапикселя.
Stable Diffusion 3.5 Large Turbo — более "облегчённая" версия, ориентированная на эффективность, при этом сохраняя высокое качество и точность выполнения запросов. Процесс генерации завершается за четыре шага.
Stable Diffusion 3.5 Medium (2,5 миллиарда параметров) — версия для работы на обычном железе, предлагающая баланс между качеством и простотой. Эта модель позволяет создавать изображения с разрешением от 0,25 до 2 мегапикселей и станет доступна 29 октября.

Обновление следует за неудачным выпуском Stable Diffusion 3 Medium в июне, когда модель оказалась неспособна соответствовать стандартам компании и ожиданиям пользователей, генерируя порой комичные или ужасные образы вместо запрашиваемых. Так что Stability AI сделала акцент на "исключительной точности следования промптам" в версии 3.5.

Скачать модели Large и Large Turbo можно на Hugging Face.

Больше статей на Shazoo