В последние годы искусственный интеллект совершил грандиозный скачок, главным образом благодаря развитию больших языковых моделей (LLM), обученных на колоссальных объёмах человеческих текстовых данных. Эти модели умеют выдать сложные, грамотные и информативные ответы на самые разные запросы. Но несмотря на всю их мощь и сложность, они имеют одно фундаментальное ограничение — они опираются исключительно на накопленные человеком знания и не способны выйти за пределы существующих парадигм. Другими словами, современные ИИ — это в основном сложные эхокамеры человеческой мысли, которые могут лишь воспроизводить уже известные способы мышления. Чтобы перейти к новой стадии развития, искусственный интеллект должен начать учиться не просто на текстах и данных из прошлого, а через взаимодействие с окружающим миром.
Наступает Эпоха Опыта — этап, где главная ценность принадлежит тем, кто может организовать уникальные обучающие среды и позволить агентам обучаться на основе реальных испытаний и собственных действий. Иными словами, мы движемся от ИИ, который лишь читает и анализирует описание мира, к ИИ, который проживает этот мир, формирует гипотезы, проводит эксперименты, наблюдает результаты и обновляет свои представления. Этот сдвиг затрагивает не только технические способы обучения, но и всю экосистему стартапов, корпораций и исследовательских институтов, задавая новые правила игры в индустрии искусственного интеллекта. Исторически машины привыкли решать задачи на основе правил, заданных людьми. Этот подход успешно работал до определённого момента, но современный опыт показывает, что самые успешные архитектуры — те, что масштабируются по вычислениям и количеству данных, а не те, что зависят от ручного конструирования логик.
Пример Tesla ярко демонстрирует эту тенденцию: отказ от сложного оборудования вроде LiDAR и традиционных правил в пользу одного только зрения и моделей обучения на основе огромного массива данных с автопарка. При этом, чтобы достигнуть высокого качества моделей, на промежуточном этапе необходимы были человекозависимые процессы — маркировка данных, обучение с подкреплением от человека и настройка безопасности. Однако в долгосрочной перспективе маркировка данных не масштабируется — невозможно бесконечно держать команду, которая вручную помечает каждую новую порцию информации. Купить или взять в аренду вычислительную мощность — сравнительно проще, чем создать уникальную среду с непрерывным потоком репрезентативных и обогащённых опыта данных. Один из ключевых факторов успеха в новой эпохе — это контроль над самой средой, в которой искусственный интеллект набирает опыт.
Огромные технологические компании обладают масштабами и ресурсами, но не могут физически быть вовсю в каждом вертикальном секторе или обладать эксклюзивным доступом ко всем реальным процессам в уникальных средах. Тесла собирает данные лишь в рамках своего автопарка. Аналогично, стартапы могут создавать уникальные датчики и подключать бизнесы из узких ниш — строительные площадки, больницы, производственные линии — чтобы обеспечить агентам доступ к реальному, динамичному опыту, который невозможно воспроизвести или имитировать где-либо ещё. Например, в строительстве продукт с дронами и датчиками, собирающий информацию о перемещениях рабочих и оборудовании, поможет обнаружить скрытые причинно-следственные связи между условиями работы и частотой травматизма. В медицинской сфере связывание в реальном времени электронных медицинских карт, мониторинга жизненных показателей и потоков пациентов позволит создавать агенты, которые умеют учиться на собственных ошибках и успехах, что невозможно простым текстовым моделям.
Легаси компании с большим пулом данных пользователей, особенно тех, кто уже имеет сложные симуляционные модели, имеют существенное преимущество для обучения агентов, за которыми стоит опыт взаимодействия внутри специфичных бизнес-процессов. Нельзя недооценивать важность грамотной инженерии систем наград для успешного развития таких агентов. Если в эпоху LLM доминировала оптимизация запросов и ответов, то в новой парадигме успех зависит от того, насколько правильно определены метрики успеха и вознаграждения. Это уже не просто пользовательская оценка отклика агента, а сложные составные показатели, которые четко отражают реальные бизнес-цели или социально значимые результаты. Так, агент продажи может обучаться не только добиваться впечатляющих показателей удовлетворённости клиентов, но и максимизировать конверсию, увеличивать длительность сотрудничества и улучшать репутацию компании через мониторинг отзывов спустя несколько месяцев после сделки.
Такие комплексные схемы невозможно просто скопировать — они закладывают внутрь алгоритмов уникальную стратегию компании, связав её с объективными результатами и долгосрочными выгодами. Это создает мощный коммерческий барьер и требует глубокого понимания своего сегмента рынка. Аналогично, агенты в сферах юриспруденции, терапии или разработки кода смогут обретать ценность, привязываясь к специфическим метрикам и показателям, которые важны именно для этих областей. Вызов для стартапов — не просто делать нового чат-бота, а создавать сложные, работающие в замкнутом цикле системы, которые умеют воспринимать информацию, делать действия, измерять результаты и корректировать поведение. Важна не только собственно модель ИИ, но инструментальные панели и пользовательские интерфейсы, где менеджеры и специалисты смогут наблюдать, управлять и настраивать агентов – в реальном времени видеть, как агент действует и обучается в заданной среде.
Примером может служить платформа, похожая на Figma, но для создания и управления ИИ агентами. Контроль и владение клиентским интерфейсом становится стратегическим ресурсом, который крупные компании не всегда могут быстро освоить из-за масштабов и корпоративной инерции. Формирование экосистемы инструментов, которые позволяют создавать и совершенствовать сценарии мотивации и вознаграждений, сможет стать новым TensorFlow для эпохи опыта. Крупные вычислительные мощности и мощные языковые модели больше не будут основным конкурентным преимуществом — победу получат те, кто контролирует поток уникальных, качественных данных, формируемых в реальных или высокодетализированных синтетических средах. Синтетические миры — это еще одна грань нового этапа.
Создавая детально проработанные симуляции, разработчики могут ускорить обучение агентов. Они позволяют моделировать ситуации, которые редко встречаются в реальности, и анализировать реакции агента, испытывая огромный спектр сценариев за маленький промежуток времени. Такие подходы особенно востребованы в логистике, экономическом планировании, переговорах и политическом моделировании. Этот способ тренировки дает компаниям бесподобное конкурентное преимущество и возможность быстро получать инсайты, которые намного быстрее и эффективнее традиционных исследований на людях. В то же время остается немало темных зон, где крупные лаборатории из-за ограничений по безопасности и этике не рискуют экспериментировать.
Здесь же открывается ниша для специализированных стартапов, работающих в серой зоне — например, агенты для тестирования кибербезопасности, оптимизации убеждающих сообщений или спекуляций на финансовых рынках. Эти области часто требуют автономности и способности вести длительные интерактивные процессы, где ошибки могут иметь высокую цену, но и потенциальная прибыль за счет уникальных стратегий чрезвычайно велика. В итоге эпоха опыта является распределением сил от тех, кто владеет исключительно вычислениями, к тем, кто контролирует живые процессы в специализированных средах с собственным опытом. Большие игроки обладают мощными моделями, но не могут быть полностью везде — именно здесь удивительные возможности для стартапов и новых игроков. Сделать ставку на глубокую интеграцию в таргетированные сегменты, построение систем непрерывного обучения, а также разработку комплексной инженерии наград — ключевые факторы успеха в ближайшие годы.
Самое время создавать не просто искусственный интеллект, а целые миры и среды, где он сможет развиваться, чтобы решать задачи, которые сегодня кажутся невозможными для моделей, обученных классическими методами.