Время как мера интеллекта: как длительность задач раскрывает возможности ИИ

Время как мера интеллекта: как длительность задач раскрывает возможности ИИ

Ученые предложили новый способ оценки возможностей искусственного интеллекта (ИИ) — по тому, насколько быстро системы могут справляться с задачами, которые обычно выполняют люди. Хотя современные модели ИИ превосходят человека в предсказании текста или решении тестовых заданий, их эффективность резко падает, когда речь заходит о сложных, многоэтапных проектах, таких как управленческая аналитика или долгосрочное планирование.

Чтобы измерить этот разрыв, исследователи из организации Model Evaluation & Threat Research (METR) предложили сравнивать, сколько времени тратит ИИ на выполнение задач разной сложности в сравнении с человеком. Результаты, опубликованные 30 марта в базе препринтов arXiv, показывают: чем дольше задача, тем хуже с ней справляется ИИ.

От минут к часам: где ИИ теряет эффективность

Ученые обнаружили, что модели ИИ успешно выполняют задания, на которые у человека уходит менее 4 минут, почти в 100% случаев. Однако для задач, требующих более 4 часов, показатель успеха падает до 10%. При этом новейшие модели, такие как GPT-4 и Claude 3 Opus, справляются с длительными задачами лучше, чем их предшественники.

Почему это важно?

  • Скорость прогресса: За последние 6 лет способность ИИ выполнять задачи с 50%-ной надежностью удваивается каждые 7 месяцев.

  • Прогноз на 2032 год: Если тенденция сохранится, ИИ сможет автоматизировать месячный объем работы программиста уже через 8 лет.

Как тестировали ИИ?

Для исследования использовали разные модели — от Sonnet 3.7 до GPT-4 — и давали им задачи разной сложности:

  • Простые (поиск фактов в Википедии, ответы на короткие вопросы).

  • Сложные (написание кода на CUDA, исправление ошибок в PyTorch).

Для оценки применяли инструменты HCAST (189 задач по машинному обучению и кибербезопасности) и RE-Bench (сравнение с инженерами-людьми). Также ученые ввели понятие «беспорядочности» задач — чем больше в них параллельных процессов и неопределенности, тем сложнее ИИ.

Что это значит для будущего?

  1. Универсальные ИИ-агенты уже близко
    По прогнозам экспертов, к 2026 году ИИ сможет решать разнообразные задачи в течение дней или недель, а не только короткие запросы.

    • Для бизнеса: ИИ возьмет на себя рутинные процессы, снижая затраты и высвобождая время для творческих задач.

    • Для пользователей: Виртуальные ассистенты смогут планировать путешествия, следить за здоровьем или управлять финансами почти автономно.

  2. Новый эталон для оценки ИИ
    Традиционные тесты (например, точность ответов) не учитывают длительность и сложность реальных задач. Метрика на основе времени дает более практичное понимание возможностей ИИ.

«Измерение ИИ по времени выполнения задач — это не идеальный, но крайне полезный индикатор», — отмечает Сохроб Казеруниан, эксперт по ИИ из Vectra AI.

Вывод: ИИ учится думать дольше

Исследование подтверждает: главный вызов для ИИ — не знания, а способность удерживать внимание и координировать действия в долгосрочной перспективе. И если текущие темпы роста сохранятся, через несколько лет мы увидим истинно универсальные системы, способные заменить человека в куда более широком спектре задач, чем сегодня.

Остается вопрос: готово ли общество к такому будущему?

Добавить комментарий