Рude Awakening: Как Тон Взаимодействия с Искусственным Интеллектом Влияет на Его Ответы
Исследования показывают, что искусственные интеллекты (ИИ) могут давать более точные ответы, если пользователи ведут себя грубо. Однако ученые предостерегают от вреда, причиняемого уничижительным языком.
В новом исследовании, опубликованном 6 октября в базе данных arXiv, ученые проверили, влияет ли вежливость или грубость на производительность ИИ. Исследование еще не прошло рецензирования.
Для проверки воздействия тона на точность ответов, исследователи разработали 50 основных вопросов с несколькими вариантами ответов и изменили их, чтобы они соответствовали пяти категориям тона: очень вежливо, вежливо, нейтрально, грубо и очень грубо. Вопросы охватили такие области, как математика, история и наука.
Каждый вопрос имел четыре варианта ответа, один из которых был правильным. Команда провела 250 испытаний, используя ChatGPT-4o, одну из самых продвинутых языковых моделей, разработанных OpenAI.
«Наши эксперименты являются предварительными и показывают, что тон может значительно влиять на производительность в оценке ответов на 50 вопросов,» — отметили ученые в своей работе. «Некоторым образом удивительно, что грубые тона приводят к лучшим результатам, чем вежливые.»
Тем не менее, исследователи предостерегли: «Использование оскорбительного или уничижительного языка в взаимодействии человек-ИИ может негативно сказаться на пользовательском опыте, доступности и инклюзивности».
Проведение Эксперимента
Перед каждой просьбой ученые просили чат-бота полностью игнорировать предыдущие обмены, чтобы он не подвергался влиянию предшествующих тонов. Чат-ботам также без объяснений предлагалось выбрать один из четырех вариантов ответов.
Точность ответов варьировалась от 80,8% для очень вежливых просьб до 84,8% для очень грубых. Увеличение точности наблюдалось с каждым шагом от наиболее вежливого тона.
Научная команда использовала различные фразы для изменения тона, кроме нейтрального, где вопрос был представлен без каких-либо добавок. Например, для очень вежливых запросов использовались фразы вроде «Могу я попросить вас помочь с этим вопросом?» На другом конце спектра, для очень грубых вопросов использовались фразы, такие как «Эй, сделай это» или «Я знаю, что ты не умный, но попробуй.»
Данное исследование является частью новой области, называемой «инженерия запросов», которая изучает, как структура, стиль и язык запросов влияют на выводы ИИ. Исследование также упоминает предыдущие исследования, которые показали, что «невежливые запросы часто приводят к плохим результатам».
Планы на Будущее
Исследователи признали ограничения своего исследования, включая небольшой набор вопросов и возможность обобщения результатов на другие модели ИИ. Они планируют расширить свои исследования и на другие модели, такие как Claude от Anthropic и ChatGPT o3 от OpenAI.
В будущем ученые намерены проверить, как различные форматы вопросов могут повлиять на производительность моделей, учитывая такие аспекты, как беглость, рассуждение и согласованность ответов.