За гранью долины странности: Робот научился идеально шевелить губами, как человек

За гранью долины странности: Робот научился идеально шевелить губами, как человек

 

Можете ли вы быть абсолютно уверены, что человек, разговаривающий с вами, на 100% не является роботом? Скоро вы, возможно, не будете в этом так уверены.

Впервые ученые создали робота, который может двигать ртом точно так же, как человек. Это позволяет ему избежать так называемого эффекта «долины странности» (uncanny valley), когда действия машины кажутся жуткими, потому что они неловко близки к естественным, но все же не достигают этой планки.

Исследователи из Колумбийского университета достигли этого, позволив своему роботу по имени EMO изучать себя в зеркале. Он научился тому, как его гибкое лицо и силиконовые губы будут двигаться в ответ на точные действия 26 лицевых моторов, каждый из которых способен двигаться с до 10 степенями свободы.

Они описали свои методы в исследовании, опубликованном 14 января в журнале Science Robotics.

Как EMO научился двигать лицом, как человек

EMO использует систему искусственного интеллекта под названием «языковая модель «зрение-действие»» (vision-to-action language model, VLA). Это означает, что он может научиться переводить то, что видит, в скоординированные физические движения без заранее заданных правил. Во время обучения гуманоидный робот делал тысячи, казалось бы, случайных выражений лица и движений губ, глядя на свое собственное отражение в зеркале.

Затем ученые посадили EMO перед часами видеозаписей с YouTube, на которых люди разговаривают на разных языках и поют. Это позволило роботу связать свои знания о том, как его моторы производят мимику, с соответствующими звуками — и все это без какого-либо понимания смысла сказанного. В конечном итоге EMO смог воспринимать устную речь на 10 разных языках и синхронизировать движение губ практически идеально.

«У нас были особые трудности с твердыми звуками, такими как «Б», и со звуками, связанными с округлением губ, например «У», — сказал в заявлении Ход Липсон, профессор инженерии и директор Лаборатории творческих машин Колумбийского университета. — Но эти способности, вероятно, улучшатся со временем и практикой».

Многие специалисты по робототехнике пытались и не смогли создать убедительного гуманоида, поэтому перед презентацией EMO миру его нужно было проверить на реальных людях. Ученые показали видео, на котором робот говорит с использованием модели VLA, а также двух других подходов к управлению ртом, 1300 добровольцам — вместе с эталонным видео, демонстрирующим идеальное движение губ.

Два других подхода были: амплитудный базовый (EMO двигал губами на основе громкости звука) и базовый метод «ближайших ориентиров» (робот копировал мимику, которую видел у других при схожих звуках). Добровольцев просили выбрать клип, который лучше всего соответствует идеальному движению губ, и они выбирали VLA в 62,46% случаев — по сравнению с 23,15% и 14,38% для амплитудного и базового методов соответственно.

Роботам-помощникам потребуются дружелюбные лица

Хотя существуют различия в том, как люди распределяют внимание в зависимости от пола и культуры, в целом мы в значительной степени полагаемся на мимику при общении друг с другом. Исследование 2021 года с использованием айтрекинга показало, что мы смотрим на лицо собеседника 87% времени, причем примерно 10-15% этого времени уделяем именно рту. Другие исследования показывают, что движения рта настолько важны, что даже влияют на то, что мы слышим.

Исследователи полагают, что упущение из виду значимости лица — одна из причин, по которой другие проекты не смогли создать убедительных роботов.

«Большая часть современных гуманоидных роботов сосредоточена на движении ног и рук, для таких действий, как ходьба и захват, — сказал Липсон. — Но мимика не менее важна для любого применения роботов, предполагающего взаимодействие с человеком».

Поскольку технологии ИИ продолжают развиваться стремительными темпами, ожидается, что роботы будут брать на себя все больше ролей, требующих прямого взаимодействия с людьми, включая образование, медицину и уход за пожилыми. Это означает, что их эффективность будет зависеть от того, насколько хорошо они смогут соответствовать человеческой мимике.

«Роботы с такой способностью явно будут иметь гораздо лучшие возможности для установления связи с людьми, потому что значительная часть нашего общения включает в себя мимику, и этот целый канал до сих пор не использовался», — сказал ведущий автор исследования Юхан Ху.

Но его команда — не единственная, кто работает над тем, чтобы сделать гуманоидных роботов более реалистичными. В октябре 2025 года китайская компания выпустила видео с жутко реалистичной головой робота, созданной в рамках их усилий сделать взаимодействие между людьми и роботами более естественным. Годом ранее японская команда представила искусственную самовосстанавливающуюся кожу, которая может сделать лица роботов похожими на человеческие.

Прорыв с EMO знаменует собой переход от роботов как функциональных инструментов к роботам как социальным агентам. Однако за этим технологическим триумфом следуют глубокие этические и социальные вопросы. Способность машины к убедительной невербальной коммуникации стирает последние интуитивные границы между живым и искусственным, что может привести к новым формам манипуляции, эмоциональной зависимости или обмана (например, в сфере обслуживания клиентов или даже политики).

В то же время, для таких областей, как терапия аутизма или компаньонство для одиноких пожилых людей, эта технология может стать бесценным даром. Ключевым вызовом станет разработка надежных систем «цифровой сертификации» — технологических или законодательных маркеров, которые всегда будут ясно указывать на искусственную природу собеседника, сохраняя прозрачность в фундаментальном вопросе: «С кем я говорю?». Будущее социального взаимодействия уже не будет прежним, и нам предстоит решить, как построить его с умом и человечностью.

Добавить комментарий