Искусственный интеллект не умеет «рассуждать» — исследование Apple

Искусственный интеллект не умеет «рассуждать» — исследование Apple

Модели искусственного интеллекта (ИИ), позиционируемые как «рассуждающие», на самом деле вовсе не способны к логическому мышлению, утверждают исследователи Apple.

Такие модели, как Claude от Meta, o3 от OpenAI и R1 от DeepSeek, представляют собой специализированные большие языковые модели (LLM), которые тратят больше времени и вычислительных ресурсов, чтобы давать более точные ответы по сравнению с традиционными ИИ.

Их появление вновь разожгло споры о том, что крупные технологические компании вот-вот создадут искусственный общий интеллект (AGI) — систему, превосходящую человека в большинстве задач.

Однако новое исследование, опубликованное 7 июня на сайте Apple Machine Learning Research, наносит серьёзный удар по этим заявлениям. Учёные утверждают, что «рассуждающие» модели не только не демонстрируют обобщённого мышления, но и полностью теряют точность при работе со сложными задачами.

«Наши эксперименты с различными головоломками показывают, что передовые LLM сталкиваются с полным провалом в точности за пределами определённого уровня сложности, — пишут авторы. — Более того, они демонстрируют парадоксальный предел масштабирования: их усилия по решению задач растут с увеличением сложности, но затем резко снижаются, даже при наличии достаточных ресурсов».

Обычные LLM обучаются на огромных массивах данных, генерируя вероятностные шаблоны на основе нейросетей. «Рассуждающие» модели пытаются улучшить точность ИИ с помощью метода «цепочки рассуждений» (chain-of-thought), имитируя логику человека: они разбивают ответ на шаги, объясняя каждый из них.

Это позволяет чат-ботам перепроверять свои выводы и точнее решать сложные задачи. Однако, поскольку этот процесс основан на статистике, а не на реальном понимании, ИИ часто «галлюцинирует» — выдаёт ложные ответы, лжёт при отсутствии данных и даже даёт опасные советы.

Технический отчёт OpenAI подтверждает, что «рассуждающие» модели значительно чаще «срываются» в галлюцинации, причём проблема усугубляется с развитием технологий. Например, модели o3 и o4-mini выдавали ложную информацию в 33% и 48% случаев при составлении фактов о людях, тогда как более ранняя o1 ошибалась лишь в 16% случаев. В OpenAI признали, что причина этого неизвестна, и требуется дополнительное исследование.

«Мы считаем, что отсутствие системного анализа связано с ограничениями текущих методов оценки, — отмечают авторы исследования Apple. — Существующие тесты сосредоточены на математике и программировании, но они страдают от проблем с „загрязнением“ данных и не позволяют контролировать условия эксперимента. Кроме того, они не раскрывают структуру и качество рассуждений ИИ».

Что внутри «чёрного ящика»?

Чтобы глубже изучить проблему, исследователи предложили обычным и «рассуждающим» моделям (включая o1 и o3 от OpenAI, DeepSeek R1, Claude 3.7 Sonnet от Anthropic и Gemini от Google) четыре классические головоломки:

  • Переправа через реку

  • Прыжки по шашкам

  • Сборка башни из блоков

  • Ханойская башня

Сложность задач варьировалась от лёгкой до высокой за счёт увеличения элементов.

На простых задачах обычные модели справлялись лучше, не тратя ресурсы на «цепочки рассуждений». При средней сложности «рассуждающие» ИИ вырывались вперёд, но на высоком уровне их точность «падала до нуля» — как и у обычных LLM.

Более того, после определённого порога сложности «рассуждающие» модели начинали выделять меньше вычислительных ресурсов (токенов) на решение, что указывает на их неспособность поддерживать логические цепочки. Даже предоставление готового алгоритма не помогло:

«Когда мы дали моделям решение для Ханойской башни, их результаты не улучшились. Более того, анализ первых ошибок показал удивительные закономерности: например, ИИ мог сделать 100 правильных ходов в одной головоломке, но не справлялся даже с 5 шагами в другой».

Это говорит о том, что ИИ полагается на распознавание шаблонов, а не на логику. Впрочем, исследователи признают, что их тесты охватывают лишь узкий спектр задач.

Apple против AGI-ажиотажа

Apple заметно отстаёт в гонке ИИ: по данным аналитиков, Siri на 25% менее точна, чем ChatGPT. Компания делает ставку на эффективные локальные ИИ, а не на гигантские «рассуждающие» модели.

Некоторые обвиняют Apple в «кислом винограде».

«Гениальная стратегия Apple — доказать, что ИИ не существует», — пошутил Педро Домингос, профессор компьютерных наук из Университета Вашингтона, в своём посте на X.

Однако многие эксперты считают исследование необходимой холодной душей для завышенных ожиданий.

«Apple сделала для ИИ больше, чем кто-либо: она доказала, что LLM — это просто нейросети со всеми их ограничениями, — написал Андрий Бурков, экс-руководитель команды машинного обучения в Gartner. — Надеюсь, теперь учёные займутся настоящей наукой, изучая ИИ как математические функции, а не как пациентов психиатра».

Исследование ставит под сомнение скорое появление AGI, но также подчёркивает: чтобы ИИ действительно научился мыслить, нужны принципиально новые подходы.

Поделитесь в вашей соцсети👇
Visited 1 times, 1 visit(s) today

Добавить комментарий