Google представила ИИ-модель, которая учит роботов понимать физический мир
Google анонсировала новую ИИ-модель Gemini Robotics-ER 1.6, разработанную для того, чтобы роботы могли лучше понимать окружающую среду и взаимодействовать с физическим миром. Модель решает одну из ключевых проблем современной робототехники – способность рассуждать за пределами прямых инструкций.
В основе Gemini Robotics-ER 1.6 лежит концепция так называемого "воплощённого рассуждения" (embodied reasoning), позволяющая роботам интерпретировать визуальные данные, планировать задачи и самостоятельно определять, когда работа выполнена. Фактически это переход от машин, слепо следующих командам, к системам, способным принимать решения с учётом контекста.
Обновлённая модель значительно улучшила пространственное мышление по сравнению с предыдущими версиями. Gemini Robotics-ER 1.6 может идентифицировать объекты, подсчитывать их количество и определять взаимосвязи между ними с гораздо большей точностью. Робот также способен "указывать" на объекты в процессе рассуждения, разбивая сложные задачи на более мелкие шаги. Это критически важно в реальных условиях, где приходится работать в захламлённых пространствах и принимать решения на основе неполной или меняющейся информации.
Ещё одно важное улучшение касается определения успешности выполнения задач. Роботы теперь могут оценивать, была ли задача завершена корректно, и решать, стоит ли повторить действие или двигаться дальше – это особенно ценно в автоматизированных рабочих процессах.
Модель также получила продвинутую обработку данных с нескольких камер одновременно. Роботы часто используют разные точки обзора – например, камеру сверху и камеру на манипуляторе. Gemini Robotics-ER 1.6 объединяет эти перспективы для формирования более полной картины окружения, даже в условиях перекрытия объектов или плохой видимости.
Одним из наиболее практичных нововведений стала способность считывать показания приборов – манометров, смотровых стёкол и цифровых дисплеев. Эта функциональность была разработана совместно с Boston Dynamics, чьи роботы Spot используются для инспекции промышленных объектов. Марко да Силва, вице-президент и генеральный менеджер направления Spot в Boston Dynamics, отметил:
Такие возможности, как считывание показаний приборов и более надёжное рассуждение о задачах, позволят Spot видеть, понимать и реагировать на реальные вызовы полностью автономно.
Для считывания приборов модель использует комбинацию визуального анализа и исполнения кода – она может приближать изображения, находить ключевые элементы вроде стрелок и делений, а затем вычислять значения с высокой точностью. Результаты бенчмарков впечатляют: точность считывания приборов выросла с 23% у более ранних моделей до 93% при включённом агентном зрении.
Google также заявила, что Gemini Robotics-ER 1.6 стала самой безопасной робототехнической системой компании на данный момент. Модель лучше распознаёт потенциальные угрозы и следует правилам физической безопасности как в текстовых, так и в визуальных сценариях, включая корректное обращение с опасными объектами.
Gemini Robotics-ER 1.6 уже доступна разработчикам через Gemini API и Google AI Studio вместе с инструментами для тестирования и создания приложений на основе воплощённого рассуждения.