Почти в половине сценариев, рассмотренных в новом исследовании, ChatGPT демонстрировал многие из наиболее распространенных человеческих предубеждений при принятии решений. Результаты исследования, опубликованные 8 апреля в журнале Manufacturing & Service Operations Management, впервые оценивают поведение ChatGPT с учетом 18 известных когнитивных предубеждений, встречающихся в психологии человека.
Авторы статьи, представляющие пять академических институтов Канады и Австралии, протестировали OpenAI GPT-3.5 и GPT-4 — две большие языковые модели (LLM), на которых работает ChatGPT, — и обнаружили, что, несмотря на «впечатляющую последовательность» своих рассуждений, они далеко не застрахованы от человеческих ошибок.
Более того, такая последовательность сама по себе имеет как положительные, так и отрицательные последствия, говорят авторы.
«Менеджеры получат наибольшую выгоду, если будут использовать эти инструменты для решения проблем, которые имеют четкое, формульное решение», — сказал в своем заявлении ведущий автор исследования Ян Чен, доцент кафедры управления операциями в Ivey Business School. «Но если вы используете их для принятия субъективных решений или решений, основанных на предпочтениях, будьте осторожны».
В исследовании были взяты общеизвестные человеческие предубеждения, в том числе неприятие риска, чрезмерная уверенность в своих силах и эффект наживы (когда мы придаем большую ценность вещам, которыми владеем), и применены к подсказкам, выданным ChatGPT, чтобы проверить, попадет ли он в те же ловушки, что и люди.
Рациональные решения — иногда
Ученые задавали магистрантам гипотетические вопросы, взятые из традиционной психологии, в контексте реального коммерческого применения, в таких областях, как управление запасами или переговоры с поставщиками. Цель заключалась не только в том, чтобы выяснить, будет ли ИИ имитировать человеческие предубеждения, но и в том, будет ли он продолжать делать это, когда ему будут задавать вопросы из разных сфер бизнеса.
GPT-4 превзошел GPT-3.5 при ответе на задачи с четкими математическими решениями, показав меньше ошибок в вероятностных и логических сценариях. Но в субъективных симуляторах, таких как выбор рискованного варианта для получения прибыли, чатбот часто повторял иррациональные предпочтения, которые обычно демонстрируют люди.
«GPT-4 демонстрирует более сильное предпочтение определенности, чем даже люди», — пишут исследователи в своей работе, имея в виду тенденцию ИИ склоняться к более безопасным и предсказуемым результатам, когда перед ним ставятся неоднозначные задачи.
Что еще более важно, поведение чатботов оставалось в основном стабильным независимо от того, были ли вопросы сформулированы как абстрактные психологические проблемы или операционные бизнес-процессы. Авторы исследования пришли к выводу, что продемонстрированные предубеждения — не просто продукт заученных примеров, а часть того, как ИИ рассуждает.
Одним из неожиданных результатов исследования стало то, что GPT-4 иногда усиливал ошибки, похожие на человеческие. «В задаче на предвзятость подтверждения GPT-4 всегда давал предвзятые ответы, — пишут авторы исследования. Он также продемонстрировал более выраженную склонность к заблуждению «горячей руки» (склонность ожидать закономерностей в случайности), чем GPT 3.5.
С другой стороны, ChatGPT удалось избежать некоторых распространенных человеческих предубеждений, включая пренебрежение базовыми показателями (когда мы игнорируем статистические факты в пользу анекдотической или конкретной информации) и заблуждение «солнечных затрат» (когда на принятие решения влияют уже понесенные затраты, позволяя нерелевантной информации затуманить суждение).
По мнению авторов, человекоподобные предубеждения ChatGPT возникают благодаря обучающим данным, которые содержат когнитивные предубеждения и эвристики, свойственные людям. Эти тенденции усиливаются в процессе тонкой настройки, особенно когда обратная связь от человека еще больше отдает предпочтение правдоподобным ответам перед рациональными. При столкновении с более неоднозначными задачами ИИ в большей степени склоняется к человеческим шаблонам рассуждений, чем к прямой логике.
«Если вам нужна точная, беспристрастная поддержка принятия решений, используйте GPT в тех областях, где вы уже доверяете калькулятору», — говорит Чен. Однако когда результат зависит от субъективных или стратегических факторов, человеческий контроль более важен, даже если это корректировка пользовательских подсказок для исправления известных предубеждений».
«К ИИ следует относиться как к работнику, принимающему важные решения, — он нуждается в надзоре и этических рекомендациях», — говорит соавтор исследования Мина Андиаппан, доцент кафедры человеческих ресурсов и менеджмента в Университете Макмастера (Канада). «В противном случае мы рискуем автоматизировать ошибочное мышление вместо того, чтобы совершенствовать его».