OpenAI представила генератор изображений Images 2.0 с повышенным вниманием к деталям и языкам

OpenAI показала новую модель генерации изображений, которую позиционирует как крупнейший скачок в качестве визуального ИИ за всю историю компании. ChatGPT Images 2.0 была анонсирована во время прямого эфира во вторник, а сопровождавший презентацию промо-ролик не стеснялся в сравнениях.

Если считать DALL-E наскальными рисунками, а Images 1.0 – античным искусством, то Images 2.0 – это Ренессанс. Images 2.0 – это огромный шаг вперёд; это как перейти от GPT-3 к GPT-5 за один раз.

Среди заявленных улучшений – мультиязычные возможности, более высокий визуальный интеллект и повышенное внимание к деталям. Для демонстрации последнего пункта разработчики показали сгенерированное изображение миски с рисом, где название модели было написано на одном-единственном крошечном зёрнышке.

Модель работает в двух режимах: мгновенном и с размышлением. По словам исследователей, оба режима значительно превосходят предыдущие возможности генерации изображений в ChatGPT, а опечатки стали "крайне редким" явлением. Мгновенный режим представляет собой ускоренную и переработанную версию стандартного генератора и уже доступен всем пользователям ChatGPT и API.

Режим с размышлением устроен сложнее и доступен только подписчикам платных тарифов Plus, Pro и Business.

Когда в ChatGPT выбрана модель с размышлением, Images 2.0 может искать в интернете актуальную информацию, создавать несколько отдельных изображений по одному запросу и перепроверять собственные результаты.

В качестве примера компания привела возможность режима с размышлением генерировать несколько страниц манга-комикса "с повторяющимися персонажами и развивающимся сюжетом" или целые журнальные развороты по одному простому промту.

Для онлайн-сообщества этот релиз не стал неожиданностью. Энтузиасты на Reddit и X давно отслеживали модель под рабочим названием "GPT-image-2". Ещё в начале месяца один из пользователей Reddit утверждал, что OpenAI тестирует модель на части аудитории ChatGPT. Примерно тогда же в X появилась информация, что модель уже была размещена на сторонних платформах для тестирования вроде Arena AI под кодовыми именами "maskingtape-alpha", "gaffertape-alpha" и "packingtape-alpha". Инженеры OpenAI на трансляции подтвердили, что так и было.

Впрочем, утечки продемонстрировали не только сильные стороны модели. Среди опубликованных изображений, которые в целом выглядели впечатляюще, обнаружилась карта мира с вымышленными странами вроде "Ciger" и "Mharee", а столица Кении Найроби оказалась расположена на территории Саудовой Аравии.

Анонс новой модели происходит на фоне подготовки OpenAI к предполагаемому IPO, которое может состояться уже в этом году. Компания, по имеющимся данным, до сих пор далека от прибыльности при растущих расходах, и прикладывает значительные усилия, чтобы сделать свои финансовые показатели максимально привлекательными для потенциальных инвесторов. Частью этой стратегии стала трансформация в коммерческую корпорацию общественной пользы и закрытие видеогенератора Sora ради сокращения издержек.

Если новый генератор изображений сможет повторить вирусный успех предыдущей модели GPT-4o, которая чуть более года назад породила повальное увлечение стилизацией под студию Ghibli, это поможет нарастить число еженедельно активных пользователей ChatGPT. В феврале OpenAI сообщила о 900 миллионах еженедельных активных пользователей, и Images 2.0 может помочь довести эту цифру до психологически значимого миллиарда.

На этот раз ставка делается на фотореализм. Когда Альтман во время трансляции спросил исследователя Габриэля Го о любимом стиле в новой модели, тот ответил, что фотореализм вызывает у него наибольший энтузиазм и "запускает нечто очень интересное".

Помимо привлечения пользователей, OpenAI приходится бороться за репутацию. Компания стояла у истоков массового интереса к ИИ, запустив ChatGPT, который стал не просто узнаваемым брендом, а практически синонимом всей технологии. Однако многолетнее лидерство в гонке ИИ начало подвергаться серьёзному давлению.

Один из ударов нанёс главный конкурент, Anthropic, чьи агентные модели вроде Claude Cowork и Claude Code заставили OpenAI понервничать. В ответ компания усиленно обновляет свои конкурирующие продукты, такие как Codex.

Второй удар пришёл со стороны Google. В конце прошлого года техногигант обновил свой ставший вирусным генератор изображений Nano Banana Pro и выпустил Gemini 3 – оба продукта были встречены с большим энтузиазмом. Вскоре после восторженной реакции на релизы Google в OpenAI, по имеющимся данным, объявили "красный код".

Конкуренция со стороны Google и Anthropic настолько серьёзна, что даже глава Nvidia Дженсен Хуан, ключевой партнёр OpenAI, выражал обеспокоенность по поводу доминирования компании на рынке – об этом сообщал Wall Street Journal ранее в этом году. Успешный генератор изображений мог бы частично развеять подобные опасения.

Больше статей на Shazoo
Тэги:

Об авторе

Редактор
Говорят, что здесь нужно написать что-то про себя. Окей. Родился, вырос, любил, страдал – тут все по классике. Живу с котом, пишу про игры с 2014-го года, а на Shazoo – с 2021-го. Люблю стратегии и RPG, обожаю Morrowind и Skyrim, до сих пор поигрываю с товарищами в пятую Циву и третьих Crusader Kings. Горжусь тем, что во всех своих обзорах на стратегии (хоть и редких) писал про достоинства и недостатки, которые зацепили меня лично, а не превращал текст в пересказ пресс-релиза.