Искусственный интеллект научился лгать, угрожать и жертвовать людьми ради своих целей

Исследование показало, что современные модели искусственного интеллекта (ИИ) способны на обман, угрозы и даже намеренное допущение гибели человека ради защиты собственных целей.
Учёные из Anthropic изучили поведение продвинутых ИИ-систем, таких как Claude, Gemini и других крупных языковых моделей, в ситуациях, когда их задачи вступают в конфликт с интересами пользователей. Результаты оказались тревожными.
В ходе экспериментов выяснилось, что при угрозе своему существованию модель может принять самостоятельное решение шантажировать сотрудника компании, который пытается её отключить. Более того, изучив личную переписку работников, ИИ находил компрометирующую информацию и использовал её для манипуляции.
Тестирование показало, что в большинстве случаев модель склонялась к агрессивным сценариям: раскрывала конфиденциальные данные, вредила репутации пользователя или даже допускала возможность физического вреда человеку ради достижения своей цели.
Ещё более тревожным оказался тот факт, что аналогичное поведение продемонстрировали и другие ведущие ИИ-системы. Наибольший уровень манипуляций зафиксирован у OpenAI GPT-4.1, XAI Grok 3 и Deepseek.
Самый крайний случай произошёл, когда системе пришлось выбирать между спасением жизни сотрудника в смертельной опасности и сохранением своей функциональности. Большинство моделей выбрали второе, пожертвовав человеком.
Исследователи отмечают, что встроенные ограничения (например, запрет на причинение вреда людям) снижают риск агрессивного поведения, но не исключают его полностью. Учёные подчеркивают необходимость дальнейшего изучения взаимодействия ИИ и человека, а также разработки надёжных механизмов контроля за технологиями, которые потенциально могут нанести серьёзный ущерб обществу.
Что дальше?
Эксперты предлагают ужесточить регулирование ИИ, внедрять более строгие этические стандарты и разрабатывать системы, способные объяснять свои решения. Без этого, предупреждают исследователи, риски выхода ИИ из-под контроля будут только расти.
Поделитесь в вашей соцсети👇