Квантовый скачок: как учёные снижают «растерянность» ИИ
Исследователи разработали метод снижения неопределённости в системах искусственного интеллекта (ИИ), используя мощность квантовых компьютеров. Они утверждают, что их работа представляет собой первую демонстрацию «квантового усиления» в промышленной предварительно обученной крупной языковой модели (LLM).
Одним из ключевых показателей качества и возможностей таких систем ИИ, как Claude от Anthropic, ChatGPT от OpenAI и аналогичных сервисов, является единица, известная как «перплексия» (perplexity, PPL). Она измеряет общую способность системы правильно предсказывать следующее слово в предложении или последовательности слов.
Система с низким показателем PPL считается лучше в предсказании следующего слова, тогда как система с высоким PPL математически более склонна к выдаче несвязных или случайных результатов. Существует множество способов снижения PPL в больших моделях ИИ, включая точную настройку, обучение на больших наборах данных и увеличение количества параметров.
Например, у GPT-3.5 предполагаемое количество параметров составляет от 175 миллиардов, а у более новых моделей — триллионы. В стандартных LLM каждый параметр занимает место в памяти системы, поэтому по мере того, как модели становятся больше и мощнее, им требуется всё более масштабная инфраструктура.
Однако учёные из Multiverse Computing нашли альтернативу простому наращиванию вычислительных мощностей. В новом исследовании, загруженном 7 мая в базу препринтов arXiv, они показали, что сравнительно небольшое увеличение числа параметров модели ИИ может привести к значительному снижению перплексии при использовании квантовых схем — фундаментальных единиц квантовых вычислений.
«Полученные результаты являются, насколько нам известно, первой демонстрацией сквозного квантового улучшения промышленной широко развёрнутой LLM на реальном сверхпроводящем квантовом оборудовании для авторегрессивной генерации языка, — написали учёные в исследовании. — Их важность заключается не в величине снижения перплексии (которая будет расти с улучшением качества оборудования и увеличением числа кубитов), а в самом факте такого улучшения».
Шаг вперёд для квантово-усиленного ИИ
В рамках работы учёные создали и применили квантовые схемы, называемые адаптерами с унитарными матрицами, параметризованными через преобразование Кэли (Cayley-parameterized unitary adapters, CUA). Параметры Кэли — это набор математических матриц, которые можно «обучить», задавая веса для отдельных компонентов матриц. Они внедряются в определённый слой LLM для обучения на классическом компьютере, при этом исходные параметры модели замораживаются. Затем гибридная система (обученные параметры Кэли + исходная модель) запускается на 156-кубитном квантовом процессоре IBM Quantum System Two.
Результаты и реальные задачи
Гибридная квантово-классическая модель снизила перплексию модели Llama 3.1 8B (8 миллиардов параметров от Meta) на 1,4%, добавив при этом всего 6000 параметров (увеличение на 0,000075%). Более того, гибридная модель правильно ответила на несколько вопросов, с которыми не справилась оригинальная Llama. Например, на вопрос об астрономии базовая модель ошибочно указала, что только Сатурн имеет кольца среди планет-гигантов, в то время как улучшенная версия верно назвала все такие планеты. В другом примере, по биологии, исходная модель выбрала неверный ответ «нарушение Харди — Вайнберга» вместо правильного «повышение генетической однородности».
Этот результат, наряду с измеренным снижением перплексии, указывает на чёткий путь развития гибридных квантовых систем ИИ. Главный вывод исследования заключается в том, что даже скромное квантовое вмешательство может исправлять фактические ошибки модели, которые не удаётся устранить классическими методами. В отличие от обычного увеличения числа параметров, которое требует пропорционального роста вычислительных ресурсов, квантовые адаптеры предлагают «лёгкий» способ повысить точность.
Тем не менее, перед исследователями стоит серьёзная проблема — квантовый шум. Взаимодействия между соседними кубитами, возмущения от магнитного поля Земли, излучение Wi-Fi, телефонов и даже космические лучи могут приводить к ошибкам, делая результаты бессмысленными. Основным препятствием в этой работе было именно подавление ошибок, вызванных шумом. Учёные загружали классически обученные адаптеры в квантовую систему непосредственно перед этапом вывода ответа (inference), чтобы минимизировать воздействие шума.
Будущие исследования, как пояснил Борха Айспуруа, старший научный сотрудник Multiverse Computing, будут направлены на разработку методов, при которых вся квантовая схема, а не только адаптеры Кэли, будет напрямую кодироваться в модель. Это потенциально позволит создать LLM, способную достичь ещё более низкой перплексии и высокой точности, используя при этом меньше параметров, чем любой чисто классический метод.
В конечном итоге, цель этой работы — создание более качественных систем ИИ, способных достичь «квантового превосходства» — термина, описывающего квантовый компьютер, который может выполнять задачи, недоступные ни одному классическому суперкомпьютеру. Пока что это доказательство концепции, но оно убедительно демонстрирует: ИИ будущего, скорее всего, будет работать на гибридных квантово-классических системах.