Тупик для трансформеров: почему современные ИИ-чатботы не научатся думать как люди

Архитектурные ограничения сегодняшних самых популярных инструментов искусственного интеллекта (ИИ) могут ограничивать то, насколько интеллектуальными они способны стать, предполагает новое исследование.

Исследование, опубликованное 5 февраля на сервере препринтов arXiv, утверждает, что современные большие языковые модели (LLM) по своей природе склонны к сбоям в логике решения задач, которые называют «отказами рассуждения». Отказы рассуждения происходят, когда LLM теряет ключевую информацию, необходимую для надежного выполнения задачи, что приводит к неверным ответам на, казалось бы, простые вопросы. Статья, представленная как обзор существующих исследований, фокусируется конкретно на моделях-трансформерах — типе нейросетевой архитектуры, которая лежит в основе популярных ИИ-чатботов, включая ChatGPT, Claude и Google Gemini.

Основываясь на результатах LLM в таких тестах, как «Последний экзамен человечества», некоторые ученые полагают, что архитектура нейронных сетей когда-нибудь приведет к модели, способной достичь человеческого уровня познания. Хотя архитектура трансформера делает LLM чрезвычайно способными к таким задачам, как генерация языка, исследователи утверждают, что она же препятствует тем надежным логическим процессам, которые необходимы для достижения истинных человеческих рассуждений.

«LLM продемонстрировали замечательные способности к рассуждению, достигнув впечатляющих результатов в широком спектре задач, — говорится в исследовании. — Несмотря на этот прогресс, сохраняются значительные сбои в рассуждениях, происходящие даже в, казалось бы, простых сценариях… Эта неудача объясняется неспособностью к целостному планированию и глубинному мышлению».

Ограничения LLM

LLM обучаются на огромных объемах текстовых данных и генерируют ответы на запросы пользователей, предсказывая слово за словом правдоподобный ответ. Они делают это, объединяя единицы текста, называемые «токенами», на основе статистических закономерностей, извлеченных из обучающих данных.

Трансформеры также используют механизм «самовнимания» (self-attention), чтобы отслеживать связи между словами и понятиями в длинных текстах. Самовнимание в сочетании с огромными базами данных обучения делает современные чатботы такими хорошими в генерации убедительных ответов.

Однако LLM не производят никакого реального «мышления» в привычном смысле. Вместо этого их ответы определяются алгоритмом. При выполнении длинных задач, особенно требующих подлинного решения проблем в несколько шагов, трансформеры могут потерять ключевую информацию и вернуться к шаблонам, изученным на обучающих данных. Это приводит к отказам рассуждения.

Федерико Нанни, старший научный сотрудник по исследованию данных в Институте Алана Тьюринга (Великобритания), утверждает, что то, что LLM обычно выдают за рассуждение, — по большей части фасад.

«Люди поняли, что если сказать LLM вместо прямого ответа: «Подумай шаг за шагом» и сначала напиши процесс рассуждения, она часто дает правильный ответ, — объяснил Нанни. — Но это трюк. Это не реальное рассуждение в человеческом смысле — это все та же предикция следующего токена, замаскированная под цепочку мыслей». «Когда мы говорим, что эти модели «рассуждают», на самом деле мы имеем в виду, что они записывают процесс рассуждения — нечто, звучащее как правдоподобная цепочка умозаключений».

Пробелы в существующих бенчмарках ИИ

Исследователи обнаружили, что текущие способы оценки производительности LLM отстают в трех ключевых областях. Во-первых, на результаты может повлиять переформулировка запроса. Во-вторых, бенчмарки деградируют и загрязняются по мере их использования. И, наконец, они оценивают только результат, а не процесс рассуждения, который модель использовала для вывода.

Это означает, что текущие бенчмарки могут значительно переоценивать возможности LLM и недооценивать частоту их сбоев в реальном использовании.

«Наша позиция не в том, что бенчмарки плохи, а в том, что они должны развиваться», — сказал Live Science по электронной почте соавтор исследования Пейян Сонг, студент по компьютерным наукам и робототехнике в Калифорнийском технологическом институте. Кроме того, бенчмарки имеют тенденцию просачиваться в обучающие данные LLM, — добавил Нанни, — что позволяет последующим LLM находить способы их обманывать.

«Кроме того, теперь, когда модели развернуты в рабочей среде, само их использование становится своего рода бенчмарком, — сказал Нанни. — Вы помещаете систему перед пользователями и смотрите, что идет не так — вот это новый тест. Да, нам нужны лучшие бенчмарки, и нам нужно меньше полагаться на ИИ для проверки ИИ. Но это очень сложно на практике, потому что эти инструменты вплетены в нашу работу, и использовать их чрезвычайно удобно».

Новая архитектура для AGI?

В отличие от некоторых других недавних исследований, эта новая работа не утверждает, что нейросетевые подходы к ИИ — это тупик в стремлении достичь сильного искусственного интеллекта (AGI). Скорее, исследователи сравнивают это с ранними днями вычислений, отмечая, что понимание причин отказов LLM является ключом к их улучшению.

Однако они утверждают, что простое обучение моделей на большем количестве данных или их масштабирование вряд ли самостоятельно решат проблему. Это означает, что для разработки AGI может потребоваться принципиально иной подход к построению моделей.

«Нейронные сети и LLM в частности — определенно часть картины AGI. Их прогресс был экстраординарным, — сказал Сонг. — Однако наш обзор показывает, что одно лишь масштабирование вряд ли устранит все отказы рассуждения… Это означает, что достижение человеческого уровня рассуждения может потребовать архитектурных инноваций, более сильных моделей мира, улучшенного обучения устойчивости и более глубокой интеграции со структурированными рассуждениями и воплощенным взаимодействием».

Нанни согласился. «С точки зрения философии разума я бы сказал, что мы, по сути, нашли пределы трансформеров, — заметил он. — Это не то, как построить цифровой разум. Они моделируют текст чрезвычайно хорошо, до такой степени, что почти невозможно отличить, был ли отрывок написан человеком или машиной. Но это всё, чем они являются: языковые модели… Есть только определенный предел, до которого можно развивать эту архитектуру».

«Артемида-II»: новый виток лунной гонки — первый за 54 года полёт с экипажем к спутнику Земли

2 апреля, 2026

Наука

Прорыв в лечении диабета 1 типа: ученые научили иммунитет «дружить» с донорскими клетками

2 апреля, 2026

Наука

Космическая погода: насколько опасен радиационный шторм для экипажа «Артемиды-2»?

1 апреля, 2026

Наука

Космический кульбит: астроном впервые зафиксировал, как комета изменила направление своего вращения

1 апреля, 2026

Наука

Не моргая: как обсерватория Веры Рубин перепишет историю Вселенной

1 апреля, 2026

Наука

Тишина в эфире: как система TranQuiL защищает радиоастрономию от цифрового шума

1 апреля, 2026

Добавить комментарийОтменить ответ

Тайна Варжиньи: Бразильский Розуэлл и нераскрытые… В 1996 году тихий бразильский город Варжинья оказался в эпицентре глобального внимания после сообщений о странных существах и крушении НЛО.…

Раскрытие правды об НЛО как прикрытие: Что скрывают… Использует ли государство тему НЛО, чтобы скрыть правду о Джеффри Эпштейне? Последние недели стали полем столкновения двух самых громких историй…

Загадочные огни Патагонии: Тайна, озадачившая учёных 21 января в 0:22 по местному времени в безмолвии чилийской Патагонии камера-ловушка, установленная для наблюдения за дикой природой в рамках…

Столкновение в небе: как ракета «Хеллфайр»… Видео с НЛО, в которое попадает ракета «Хеллфайр» — под таким заголовком в Конгрессе США обсуждали новый радарный ролик, показанный…

Подводные магистрали НЛО: Почему океан стал… НПО (Неопознанный Погруженный Объект) — это неопознанный аномальный феномен (НАФ), взаимодействующий с водой или перемещающийся между воздухом и морем. Случаи…

Экс-аналитик ЦРУ раскрыл шокирующие детали об НЛО:… Джон Рамирес, бывший аналитик электронной разведки (ELINT) ЦРУ с 25-летним опытом изучения радарных сигналов и ракетных систем, поделился сенсационными подробностями…

Загадка временных сдвигов: реальность, иллюзия или… В 2025 году участились сообщения о «временных сдвигах»: покупатели заходят в магазины, будто застывшие в прошлом, водители теряют 10 минут…

Таинственный гость: на камеру попал загадочный… Домовладелица Джессика Ортис поделилась странным видео, на котором запечатлено небольшое серое существо с необычной формой головы, быстро пересекающее её подъездную…

Загадка боливийской мумии: раскрыта тайна древнего… Необычная мумифицированная голова, обнаруженная в Боливии более века назад, оказалась не тем, чем её считали раньше. Новое исследование показало, что…

Тайна, Спрятанная за Океаном: Останки Иисуса и Марии… Лидер современного ордена тамплиеров заявил, что останки Иисуса Христа, Марии Магдалины и Иоанна Крестителя тайно хранятся в спецхранилищах на территории…

Тупик для трансформеров: почему современные ИИ-чатботы не научатся думать как люди

Похожие записи

«Артемида-II»: новый виток лунной гонки — первый за 54 года полёт с экипажем к спутнику Земли

Прорыв в лечении диабета 1 типа: ученые научили иммунитет «дружить» с донорскими клетками

Космическая погода: насколько опасен радиационный шторм для экипажа «Артемиды-2»?

Космический кульбит: астроном впервые зафиксировал, как комета изменила направление своего вращения

Не моргая: как обсерватория Веры Рубин перепишет историю Вселенной

Тишина в эфире: как система TranQuiL защищает радиоастрономию от цифрового шума

Добавить комментарийОтменить ответ

«Артемида-II»: новый виток лунной гонки — первый за 54 года полёт с экипажем к спутнику Земли