Google представила Gemini 1.5 Pro — новую, более эффективную ИИ-модель

В четверг Google представила Gemini 1.5 Pro, улучшенную ИИ-модель, которая по всем характеристикам обходит прошлую версию.

В блоге генеральный директор Google Сундар Пичаи и глава DeepMind Демис Хассабис пытаются заверить аудиторию в этичности и безопасности ИИ и в то же время расхваливая быстро растущие возможности своих моделей.

Наши команды продолжают раздвигать горизонты в области последних моделей, выдвигая безопасность во главу угла.

Компании необходимо подчёркивать безопасность для скептиков ИИ и госрегуляторов. Но также важно акцентировать растущую производительность моделей для разработчиков ИИ, потенциальных клиентов и инвесторов, обеспокоенных недостаточно быстрой реакцией Google на успех ChatGPT от OpenAI, которая вчера представила ИИ-модель для генерации фотореалистичных видео.

По словам Пичаи и Хассабиса, Gemini 1.5 Pro демонстрирует сопоставимые результаты с Gemini 1.0 Ultra, но более эффективно — с меньшими вычислительными затратами. Мультимодальные возможности включают обработку текста, изображений, видео, аудио и кода. С развитием ИИ модели будут предлагать всё более универсальный функционал в одном окне запросов.

Gemini 1.5 Pro также может обрабатывать до миллиона токенов — единиц данных для анализа в одном запросе. Google говорит, что модель способна обработать более 700 000 слов, час видео, 11 часов аудио и код на 30 000 строк. В компании заявляют, что уже успешно протестировали версию на 10 миллионов токенов.

Компания отмечает, что при больших значениях Gemini 1.5 Pro сохраняет высокую точность результатов, если получает для обучения новые данные. В тесте "Needle In a Haystack" модель показала впечатляющие результаты по поиску фрагмента текста внутри большого массива данных. Google сообщила, что Gemini 1.5 Pro находила текст с точностью 99% даже в блоках данных длиной до миллиона токенов.

Google говорит, что Gemini 1.5 Pro может рассуждать о различных деталях в 402-страничной транскрипции полёта Аполлона-11 на Луну. Кроме того, она анализирует сюжет и события в загруженном 44-минутном немом фильме с Бастером Китоном.

Поскольку контекстное окно в 1,5 млн токенов — первое такого рода для крупных моделей, мы продолжаем разрабатывать новые критерии оценки для тестирования её необычных возможностей.

На старте Gemini 1.5 Pro поддерживает 128 000 токенов — то же число, при котором остановилась публично анонсированная GPT-4 от OpenAI. Хассабис говорит, что компания в скором времени представит ценники для запросов до 1 миллиона токенов.

Gemini 1.5 Pro также умеет получать новые навыки из длинных запросов без дополнительного обучения. В тесте "Machine Translation from One Book" модель выучила грамматику языка каламанг, на котором говорят менее 200 человек в мире, и ранее не видела его. Как говорит Google, Gemini 1.5 Pro выполняла переводы на уровне человека, изучившего тот же материал, с английского на каламанг.

Google говорит, что Gemini 1.5 Pro может решать задачи в более длинных фрагментах кода.

При запросе на 100 000 строк кода модель лучше соображает в примерах, предлагает полезные модификации и объясняет работу различных частей кода.

В плане этики и безопасности Google обещает тот же ответственный подход, что и для Gemini 1.0. Это включает разработку методов проверки на проблемы, где команда специалистов по сути играет роль адвоката дьявола, тестируя "широкий спектр потенциального вреда". Кроме того, компания тщательно проверяет направления вроде контентной безопасности и предвзятости.

Google нацеливает Gemini 1.5 Pro на ранний доступ для разработчиков и корпоративных клиентов, планируя в будущем сделать её более широко доступной. А Gemini 1.0 уже доступна потребителям наряду с платной Pro-версией за 20 долларов в месяц.

Больше статей на Shazoo
Тэги: