ИИ в подземельях: как Dungeons & Dragons стала полигоном для испытания искусственного интеллекта

ИИ в подземельях: как Dungeons & Dragons стала полигоном для испытания искусственного интеллекта

 

Модели искусственного интеллекта (ИИ) начали играть в популярную настольную ролевую игру Dungeons & Dragons (D&D), чтобы исследователи могли проверить их способность выстраивать долгосрочные стратегии и сотрудничать как с другими ИИ-системами, так и с людьми.

В исследовании, представленном на конференции NeurIPS 2025 (проходившей со 2 по 7 декабря в Сан-Диего), учёные заявили, что D&D является идеальным испытательным полигоном благодаря уникальному сочетанию в игре творческой свободы и жёстких правил.

Для успеха модели должны продемонстрировать способность планировать, общаться, запоминать, а также проявлять осведомлённость о тактике и намерениях противников. D&D предоставляет контекст, в котором обстановка и правила чётко определены, и служит мостом между естественным языком и игровой механикой.

В ходе экспериментов одна модель могла взять на себя роль Мастера Подземелий (DM) — того, кто создаёт историю и играет за монстров — а также роль героя (в каждом сценарии был один DM и четыре героя). В разработанной для исследования платформе под названием D&D Agents модели также могут играть друг с другом, либо люди могут занимать любые или все роли самостоятельно. Например, большая языковая модель (LLM) могла бы быть DM, в то время как две LLM и два живых игрока играли бы героев.

«Dungeons & Dragons — это естественный испытательный стенд для оценки многошагового планирования, следования правилам и командной стратегии, — говорится в заявлении старшего автора исследования Раджа Амманабролу, доцента кафедры компьютерных наук и инженерии Калифорнийского университета в Сан-Диего. — Поскольку игра разворачивается через диалог, D&D также открывает прямой путь для взаимодействия человека и ИИ: агенты могут помогать людям или играть вместе с ними».

Симуляция не воспроизводит всю кампанию D&D; вместо этого она фокусируется на боевых столкновениях, взятых из готового приключения «Lost Mine of Phandelver». Для создания параметров теста команда выбирала один из трёх боевых сценариев, набор из четырёх персонажей и их уровень силы (низкий, средний или высокий). Каждый эпизод длился 10 ходов, после чего собирались результаты.

Платформа для проверки стратегии и принятия решений

Исследователи прогнали через симуляцию три разные модели ИИ — DeepSeek-V3, Claude Haiku 3.5 и GPT-4 — и использовали D&D как метрику для оценки того, как модели демонстрируют долгосрочное планирование и способность использовать инструменты, среди других качеств.

Эти навыки ключевые для реальных применений, таких как оптимизация цепочек поставок или проектирование производственных линий. Также тестировалось, насколько хорошо модели могут координироваться и планировать совместно, что применимо к сценариям моделирования действий при катастрофах или в многозадачных системах поиска и спасения.

В целом, Claude Haiku 3.5 продемонстрировал наилучшую боевую эффективность, особенно в сложных сценариях. В простых сценариях сохранение ресурсов было примерно одинаковым для всех трёх моделей. В D&D ресурсы — это, например, количество заклинаний или способностей, которые персонаж может использовать за день, или число зелий лечения. Поскольку это были изолированные боевые сценарии, у моделей было мало стимулов экономить ресурсы на потом, как в полном приключении.

В более трудных ситуациях Claude Haiku 3.5 охотнее тратил выделенные ресурсы, что приводило к лучшим результатам. GPT-4 шёл следом, а DeepSeek-V3 справлялся хуже всех.

Остаться в образе: тест на творческую согласованность

Исследователи также оценили, насколько хорошо модели могут «оставаться в роли» на протяжении всей симуляции. Они создали метрику «Качество актёрской игры», которая анализировала сгенерированные моделями текстовые реплики в рамках повествования. Эта метрика оценивала баланс между тем, насколько последовательно модель придерживалась выбранного образа, и тем, сколько уникальных «голосов» она использовала во время игры.

Оказалось, что DeepSeek-V3 генерировал множество кратких, эмоциональных выкриков и насмешек от первого лица (например, «Я устремляюсь влево!» или «Добейте их!»), но часто повторял одни и те же речевые шаблоны. Claude Haiku 3.5, напротив, гораздо точнее подстраивал свою лексику под класс или монстра, за которого играл, будь то Святой Паладин или любящий природу Друид. GPT-4 занял промежуточную позицию, производя смесь внутриигровых нарративных фраз и мета-тактических комментариев.

Некоторые из самых интересных и характерных боевых реплик появлялись, когда модели играли роль монстров. Разные существа начинали проявлять distinct личности: например, гоблины визжали посреди боя: «Хе-хе… Блестящий человек сейчас истечёт кровью!»

Взгляд в будущее: кампании, творчество и импровизация

По словам исследователей, такой тестовый framework важен для оценки способности моделей работать долгое время без вмешательства человека. Это мера способности ИИ действовать самостоятельно, оставаясь при этом последовательным и надёжным — качество, требующее памяти и стратегического мышления.

В будущем команда надеется внедрить полноценные кампании D&D, моделирующие всё повествование и действия вне боя, что дополнительно проверит креативность ИИ и его способность импровизировать в ответ на действия людей или других языковых моделей. Это откроет путь к созданию более сложных симуляционных сред для обучения ИИ социальному интеллекту, ведению переговоров и принятию решений в условиях неопределённости — навыкам, критически важным для реального мира.

Добавить комментарий