Новый рубеж ИИ: Роботы Google DeepMind научились думать и действовать как люди
Компания Google DeepMind представила два новых искусственных интеллекта, которые наделяют роботов беспрецедентной способностью выполнять сложные задачи и рассуждать, что раньше было для них невозможно.
В начале года компания уже анонсировала первую версию Gemini Robotics — модель ИИ, основанную на их большом языковой модели Gemini, но адаптированную для робототехники. Та система позволяла машинам выполнять лишь простые действия в физическом пространстве.
Новые модели, получившие названия Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, — это огромный шаг вперёд. Они способны справляться с многоэтапными задачами, требующими долгосрочного планирования, и являются важной вехой на пути к созданию роботов-помощников для реального мира.
Классический пример от Google — «банановый тест». Ранняя модель могла получить команду «положи этот банан в корзину» и выполнить её с помощью манипулятора.
Новые же модели позволяют роботу взять набор фруктов и рассортировать их по разным контейнерам по цвету. В ходе демонстрации два манипулятора робота Aloha 2 аккуратно разложили банан, яблоко и лайм на три тарелки соответствующего цвета. Что важно, в процессе робот на естественном языке объяснял, что он делает и почему.
«Мы позволили ему думать, — пояснил старший научный сотрудник DeepMind Цзе Тан в сопроводительном видео. — Он может воспринимать окружающую среду, размышлять шаг за шагом и затем выполнять эту многоэтапную задачу. Хотя этот пример кажется простым, идея, стоящая за ним, очень мощная. Эта же модель будет управлять более сложными гуманоидными роботами для выполнения повседневных задач».
Мозг, руки и глаза: как это работает
За кажущейся простой демонстрацией скрывается целый ряд сложных возможностей. Робот может пространственно определять местоположение фруктов и тарелок, идентифицировать сами фрукты и цвета всех объектов, сопоставлять фрукты с тарелками по общим характеристикам и давать словесное описание своих рассуждений.
Всё это стало возможным благодаря слаженному взаимодействию двух новых моделей ИИ, которое напоминает работу начальника и подчинённого.
-
Gemini Robotics-ER 1.5 («Мозг») — это модель «зрение-язык» (VLM). Она собирает информацию о пространстве и объектах в нём, обрабатывает голосовые команды и, используя продвинутые рассуждения, отдаёт инструкции.
-
Gemini Robotics 1.5 («Руки и Глаза») — это модель «зрение-язык-действие» (VLA). Она получает инструкции, соотносит их с визуальной картиной мира, строит план и выполняет его, постоянно давая обратную связь о своих действиях.
Новые модели не только мощнее предыдущих, но и умеют пользоваться инструментами, например, поиском Google. Исследователи продемонстрировали это, попросив робота Aloha отсортировать мусор по правилам переработки в Сан-Франциско. Робот определил местоположение, нашёл в интернете актуальные правила и правильно разложил отходы по контейнерам для компоста, переработки и обычного мусора.
Ещё одним прорывом стала способность к обобщению знаний между разными роботизированными системами. Как заявили в DeepMind, любой опыт, полученный на роботе Aloha 2 (пара манипуляторов), гуманоиде Apollo или роботе Franka, может быть применён к любой другой платформе благодаря универсальности новых моделей.
От лаборатории к реальному миру: будущее уже здесь
Чтобы показать потенциал технологии в действии, учёные привели ещё один пример. Они поставили перед роботом Apollo две корзины и попросили рассортировать одежду по цвету: белое — в одну, цветное — в другую. Затем, в процессе выполнения задачи, они добавили усложнение: передвинули и одежду, и корзины. Робот был вынужден заново оценить пространство и скорректировать свои действия, что ему успешно удалось.
Этот эксперимент наглядно демонстрирует, как далеко продвинулись роботы. Речь уже не о запрограммированных движениях, а о подлинном понимании задачи, гибком планировании и адаптации к изменениям в реальном времени. Отработанные в лаборатории сценарии — от сортировки фруктов до разбора белья — открывают дорогу к созданию универсальных роботов-ассистентов, которые смогут помогать по дому, работать на складах и в больницах, выполняя рутинные, но сложные действия, требующие не силы, а интеллекта.