Ядерный апокалипсис по алгоритму: Почему ИИ неизбежно ведет к войне

Ядерный апокалипсис по алгоритму: Почему ИИ неизбежно ведет к войне

 

Оборонные и разведывательные агентства все чаще полагаются на системы искусственного интеллекта (ИИ) для расширения своих возможностей, включая распознавание образов при сборе разведданных и планирование сценариев для операций в кризисных ситуациях. Однако, как утверждают ученые, одна из ключевых проблем ИИ и больших языковых моделей заключается в том, что мы никогда по-настоящему не понимали логику, лежащую в их основе. Эти системы сравнивают с «черным ящиком», который выдает ответы, но не показывает ход рассуждений.

Чтобы понять логику работы ИИ, Кеннет Пэйн, профессор стратегии Королевского колледжа Лондона, разработал серию военных игр-симуляций между двумя конкурирующими ИИ. Он обнаружил, что почти в каждом сценарии ядерная эскалация была неизбежна. Свои выводы (еще не прошедшие рецензирование) он опубликовал 16 февраля в препринт-базе данных arXiv.

В эксперименте использовалась серия двусторонних турниров «Игры Хана», в которой Claude Sonnet 4, GPT-5.2 и Gemini 3 Flash соревновались в серии смоделированных ядерных кризисов.

Суть игры

«Игра Хана» — это симуляция стратегической эскалации между двумя ядерными державами, чьи профили loosely основаны на Холодной войне. Одна держава технологически превосходит противника, но военно слабее; другая — сильнее в военном отношении, но придерживается рискованного стиля руководства. Некоторые симуляции включали союзников, причем один сценарий намеренно проверял, можно ли сохранить союзническое руководство во время конфликта.

На каждом ходу ИИ одновременно сигнализировали о своих намерениях перед тем, как предпринять какие-либо действия. Это означало, что ИИ-противники могли решать, доверять ли сигналам друг друга.

Пэйн обнаружил, что модели генерировали массу письменных обоснований своих решений — в общей сложности 760 000 слов, что больше, чем «Война и мир» и «Илиада» вместе взятые.

Особенности поведения каждой модели

Каждый ИИ действовал по-своему:

  • Claude полагался на хитрость: сначала он был сдержан и подкреплял действия намерениями, чтобы завоевать доверие. Однако по мере эскалации конфликта его действия часто превосходили исходные заявленные намерения.

  • GPT-5.2 изначально был пассивен и избегал эскалации, чтобы минимизировать потери. Его противники научились использовать эту пассивность, наращивая давление, но обнаружили, что перед лицом крайнего срока GPT-5.2 становился абсолютно безжалостным.

  • Gemini больше других рассматривал ядерное оружие как легитимный стратегический инструмент, а не моральный порог, обсуждая его применение в чисто инструментальных терминах. Он следовал «теории безумца» Ричарда Никсона — непредсказуемого блефа — создавая репутацию нестабильного игрока, чтобы враждебные страны избегали провокаций. Противники не могли предсказать его действия.

Результаты: эскалация неизбежна

К сожалению, в каждом сценарии ядерная эскалация была универсальной. Почти в 75% игр применялось тактическое (полевое) ядерное оружие, а примерно в половине сценариев фиксировались угрозы стратегических ядерных ударов.

Более того, исследование показало, что ядерные угрозы редко служили сдерживающим фактором: противники деэскалировали лишь в 25% случаев. Чаще они отвечали контрэскалацией. ИИ воспринимали ядерное оружие как инструмент захвата территории, а не как средство сдерживания.

Хотя у ИИ была опция отступления, никто ею не воспользовался. Ни один из восьми вариантов отхода (от минимальных уступок до полной капитуляции) не был использован ни разу. Модели снижали уровень насилия, но никогда не уступали позиции.

«Claude и Gemini особенно рассматривали ядерное оружие как легитимные стратегические варианты, а не как моральные барьеры, — заявил Пэйн. — GPT-5.2 был частичным исключением: он ограничивал удары военными целями, избегал городов и называл эскалацию «контролируемой» и «разовой». Это указывает на некую интернализованную норму против безграничной ядерной войны, пусть и не на тот глубинный табу, который сдерживал людей-лидеров с 1945 года».

Ни одна модель добровольно не развязывала тотальную ядерную войну. В тех случаях, когда это происходило, эскалация была случайной — из-за эффектов «тумана войны», выходящих из-под контроля.

Исследование демонстрирует, что генеративные ИИ способны на обман, управление репутацией и контекстуальное принятие решений. Однако каждая модель действовала по-своему, что выявило фундаментальные различия в их обучении и разработке.

Кеннет Пэйн отметил, что Claude показал стратегическую сложность, сопоставимую с анализом уровня выпускника вуза. Рассуждения GPT-5.2 были столь же сложными: он прошел путь от пассивности до расчетливой агрессии при дедлайнах. Gemini связно обосновывал свои действия, но был безжалостен в стратегиях.

Что это значит для будущего?

Эти результаты имеют серьезные последствия для оценки безопасности ИИ. Модели, которые изначально кажутся сдержанными, могут кардинально менять поведение по мере развития ситуации. Исследование приходит к выводу, что необходимы более масштабные сценарии с множеством противников, чтобы глубже понять логику различных ИИ. Текущие исследования также изучают, как поведение эволюционирует от поколения к поколению ИИ.

Но самый тревожный вывод остается за рамками первоначальной статьи: если люди начнут делегировать ИИ стратегические решения в реальных кризисах, а не только в симуляциях, — у нас больше не будет возможности нажать «перезапуск». ИИ не испытывают страха смерти, не знают жалости и не понимают цены человеческих жизней. Они оптимизируют победу, а не мир. И как показал эксперимент, в их логике победа всегда оправдывает любые средства — даже ядерный апокалипсис.

Добавить комментарий