В последние несколько лет искусственный интеллект активно развивается, привлекая огромные инвестиции и внимание общественности. Тем не менее, как отмечает Анг Ли, бывший инженер Google DeepMind и один из создателей компании Simular, текущая парадигма разработки ИИ-агентов далека от идеала. По его мнению, множество участников рынка просто не понимают сути проблемы и тем самым внедряют решения, которые не способны эффективно работать в реальных условиях. Его взгляды помогают осознать ограничения, с которыми сталкивается индустрия, а также потенциальные пути дальнейшего развития и практического применения ИИ в тех сферах, где базовые инструменты пока работают слабо, например, в страховании и здравоохранении. Анг Ли пришёл к миру искусственного интеллекта, работающим в DeepMind с 2017 по 2019 год.
В те годы многие инженеры были скептически настроены к машинному обучению и искусственному интеллекту, считая, что технологии слишком сырые для применения в продакшене. По словам самого Ли, внутри Google одна из команд в те годы даже заявляла, что машинное обучение «никогда не работает в продакшене». С этим трудно поспорить, учитывая, что традиционные модели обучения часто строятся на статических наборах данных. Однако реальный мир — динамичен, данных становится всё больше, и их распределение постоянно меняется. В случае рекламы на Google или контента на YouTube «почва» под ногами перемещается ежедневно.
Из-за этой фундаментальной проблемы многие модели стараются «угадать» поведение, опираясь на устаревшую информацию и статистические предположения, что и приводит к плохой производительности в реальных системах. История с попыткой применения AlphaGo — системы, покорившей игру Го, для повышения доходов Google Ads, служит показательным примером ограничений классического машинного обучения и ИИ. Когда DeepMind предложил улучшить рекламные системы, эффект был обратный: доходы снизились. Это подтвердило, что успешные алгоритмы, работающие в строго ограниченной среде, не всегда легко адаптируемы к реальным бизнес-задачам с их многослойной динамикой и постоянно меняющимися факторами. С выходом ChatGPT от OpenAI в конце 2022 года и общего прогресса в генеративных моделях многие ожидали резкого скачка.
Однако даже спустя почти три года после взрывного роста интереса к генеративному ИИ, реальная эффективность AI-агентов в сложных офисных задачах остаётся крайне низкой. Например, по результатам недавно введённого эталона OSWorld, за апрель 2024 года лучший AI-агент смог успешно выполнить лишь около 45% заданий, связанных с автоматизацией рутинной работы на компьютере. В то время как человек демонстрирует около 72% эффективности в аналогичных условиях, это явно показывает, что ИИ пока не готов полностью заменить сотрудников в рутинных офисных операциях. Подобные задачи включают в себя обновление бухгалтерских таблиц, автоматизацию заполнения форм и обработку большого объёма монотонной работы, что особенно актуально для таких отраслей, как страхование, здравоохранение, финансы. В этих сферах часто отсутствуют удобные и гибкие API, к которым могли бы получить программный доступ автоматизированные системы.
Поэтому компании вынуждены нанимать большое количество сотрудников, чтобы выполнять эти процессы вручную. Автоматизация таких задач потенциально способна существенно повысить производительность и сократить расходы. Компания Simular под руководством Ли создала собственный фреймворк S2 — платформу для создания автономных AI-агентов, которые способны взаимодействовать с окружающей средой и сами совершенствоваться с течением времени. Ключевая особенность подхода Simular в том, что они не ограничиваются использованием больших языковых моделей (LLM) как основной базовой технологии. В индустрии сейчас существует тренд ориентироваться исключительно на LLM, которые ежедневно используются для генерации текста и действий.
Однако Ли подчёркивает, что LLM — всего лишь часть более широкой структуры, а именно фреймворка с подкреплением, где важна не только «исследовательская» часть, но и «эксплуатация» найденных решений. Разница между этими понятиями состоит в следующем: exploration (исследование) предполагает, что AI-агент пробует разные варианты выполнения задачи, пытаясь найти оптимальный метод. Exploitation (эксплуатация) означает, что после нахождения эффективного способа агент воспроизводит его стабильным и предсказуемым образом. Simular применяет LLM на этапе поиска решения, а затем конвертирует полученный результат в символический код, напоминающий JavaScript, который запускается программно и гарантирует более надёжное выполнение задачи. Если код перестаёт работать из-за изменений в системе, модель получает сигнал переписать его — таким образом реализуется цикл непрерывного обучения и адаптации.
Этот метод можно назвать нейро-символическим, поскольку он сочетает в себе преимущества нейронных сетей и символического программирования. При этом независимость от постоянно переобучаемых моделей снижает влияние проблемы катастрофического забывания — главной преграды на пути развития ИИ с элементами непрерывного обучения. Именно эта проблема, а также высокие вычислительные затраты на регулярное дообучение больших моделей, сегодня тормозят развитие истинного искусственного интеллекта, способного самообучаться на протяжении всего жизненного цикла. Ли уверен, что чтобы достичь уровня искусственного общего интеллекта (AGI), способного выполнять широкий спектр задач лучше или не хуже человека, необходимо отказаться от статичных моделей и построить автономные системы с непрерывным обучением и адаптацией. Он рассматривает Simular скорее как компанию, создающую базовую техническую инфраструктуру для разработки таких агентов, чем как производителя конечных продуктов.
В этом и состоит ключевое отличие их подхода от большинства компаний, которые сосредоточены на использовании LLM в качестве самостоятельного решения. Другие важные аспекты видения Анг Ли — это автономность агентов и сохранение пользовательских данных локально. Современные инструменты требуют, чтобы мы всегда носили с собой компьютеры и вели работу непосредственно через них. Будущее, по мнению Ли, сделает эти устройства «человекообразными» — агенты смогут самостоятельно бронировать билеты, делать покупки, резервировать столики в ресторанах и выполнять множество рутинных задач, учитывая индивидуальные привычки и предпочтения пользователя. Разработка Simular Pro — дорогостоящего агента для macOS с процессорами Apple Silicon, который стоит около 500 долларов в месяц и ориентирован на использование в коммерческих организациях — уже демонстрирует реализуемость этого видения.
Предполагается, что такие агенты значительно облегчат работу в сферах, где процессы сложны, повторяемы и в целом не имеют цифровой автоматизации на уровне API. Если взглянуть на индустрию в целом, можно заметить, что инвесторы и разработчики часто увлечены лишь визуально эффектными и хайповыми технологиями, не уделяя достаточного внимания базовой инженерии и практическим вызовам внедрения ИИ на производстве. Анг Ли утверждает, что большинство компаний направляют усилия не в ту сторону — они концентрируются на «исследовании» при помощи LLM, забывая о том, что для стабильного выполнения задач нужна надёжная эксплуатация и написание предсказуемого кода. Это одна из причин, почему даже самые передовые AI-агенты в офисной автоматизации пока не способны заменить человека полностью. Таким образом, позиция бывшего инженера Google DeepMind проливает свет на фундаментальные проблемы современного искусственного интеллекта и предлагает альтернативный взгляд, основанный на глубоком понимании процессов машинного обучения, программирования и реальных требований бизнеса.
По мнению Анг Ли, реальный прорыв возможен только при объединении нейросетевых подходов с символическим программированием и создании систем с непрерывным обучением, способных адаптироваться в меняющейся среде. В ближайшем будущем, если удастся правильно реализовать эти идеи, ИИ-агенты смогут не просто дополнять человеческий труд, а полностью автоматизировать множество офисных операций, освободив людей для более творческих и сложных задач. Эта перспектива особенно актуальна для индустрий с неудобной цифровой инфраструктурой, где необходимо много ручной работы с данными и формами. В итоге, история Анг Ли и его компания Simular показывают, что для успешного воплощения искусственного интеллекта в реальной жизни нужен не только хайп вокруг техник, но и глубокая техническая база, ориентированная на решение специфических задач, а также способность систем учиться и адаптироваться постоянно в изменяющемся мире.