Разработчик создал гигантскую изометрическую карту Нью-Йорка в стиле пиксель-арта – полностью с помощью ИИ

Энди Коэнен, инженер Google Brain, представил isometric.nyc – масштабную изометрическую карту Нью-Йорка в стиле классических игр вроде SimCity 2000, созданную полностью с помощью ИИ-агентов для программирования. Разработчик не написал ни одной строки кода самостоятельно, используя Claude Code, Gemini CLI и Cursor с моделями Opus 4.5 и Gemini 3 Pro.

Коэнен работает над контролируемостью генеративных моделей в Google Brain, а до переключения на разработку ПО в 2015 году был сооснователем The M Machine – электронного музыкального проекта. Идея карты возникла, когда Коэнен смотрел на Манхэттен с балкона офиса Google и представил, как город выглядел бы в ностальгической эстетике игр конца 90-х. Задача звучала амбициозно – превратить спутниковые снимки в пиксель-арт тайлы, используя генеративные модели для создания примерно 40 тысяч изображений.

Разработчик начал с запроса к Gemini и дальше полагался исключительно на ИИ-агенты для написания всего кода. Первоначально Коэнен планировал использовать данные CityGML для рендеринга "белых коробок" отдельных тайлов, но быстро переключился на Google Maps 3D tiles API, который предоставил точную геометрию и текстуры в одном рендерере. ИИ-агенты справились с настройкой системы координат и схемы маркировки геометрии – областью, известной своей сложностью в ГИС-технологиях.

Для генерации изображений Коэнен использовал Nano Banana Pro, но столкнулся с проблемами консистентности, скорости и стоимости. Модель выдавала нужный стиль лишь в половине случаев, что недостаточно для масштабного производства.

Решением стало дообучение модели Qwen/Image-Edit на платформе oxen.ai – процесс занял 4 часа и обошёлся всего в 12 долларов. Коэнен создал тренировочный датасет из примерно 40 пар входных и выходных изображений, реализовав стратегию "инфилла" для бесшовной генерации соседних тайлов.

Наибольшие проблемы вызвали вода и деревья – модели не могли надёжно генерировать эти элементы из-за особенностей отделения структуры от текстуры. Коэнен построил множество микроинструментов для решения задачи:

  • автоматический корректор воды на основе выбора цвета

  • кастомные промпты с негативными примерами

  • экспорт и импорт в Affinity для ручных правок

В итоге значительную часть времени пришлось потратить на ручную коррекцию краевых случаев.

Для масштабирования разработчик перенёс модели на арендованные GPU H100 через Lambda AI, где ИИ-агент за считанные минуты настроил inference-сервер. Система генерировала более 200 тайлов в час при стоимости менее 3 долларов в час, что сделало весь проект экономически осуществимым. Коэнен запускал генерацию на ночь, утром проверял результаты и планировал следующие участки карты.

Проект выявил ключевое ограничение современных ИИ – модели для изображений значительно отстают от текстовых и кодовых моделей в способности к самооценке и исправлению ошибок.

В отличие от агентов для программирования, которые могут запустить код, прочитать ошибку и исправить её, модели для генерации изображений не способны надёжно распознавать швы или неправильные текстуры в своих собственных результатах. Это сделало автоматизацию контроля качества невозможной.

Полноценная карта доступна на isometric.nyc и использует библиотеку OpenSeaDragon для отображения гигапиксельных изображений на разных уровнях масштабирования.

Коэнен, имеющий опыт работы над системами просмотра гигапиксельных изображений в Google Brain, отметил, что без генеративных моделей такой масштабный арт-проект был бы физически невозможен – нанять достаточно художников для ручной прорисовки каждого здания в Нью-Йорке нереально.

Больше статей на Shazoo
Тэги: