В современном мире искусственный интеллект стремительно меняет способы, которыми мы взаимодействуем с информацией и решаем сложнейшие задачи в различных областях. Одним из наиболее впечатляющих достижений последнего времени стал проект Tongyi DeepResearch - высокотехнологичный автономный агент с открытым исходным кодом, способный конкурировать с ведущими лабораторными моделями на мировом уровне. Этот проект заявил о новом этапе развития ИИ-исследовательских агентов, при котором открытость, масштабируемость и инновации сочетаются для создания интеллектуальных систем нового формата. Tongyi DeepResearch - это первая полностью открытая реализация Web Agent с производительностью, сравнимой с лучшими аналогами, такими как OpenAI DeepResearch. Модель демонстрирует высокие результаты в сложнейших информационно-поисковых задачах и академическом тестировании, показывая, что открытый софт может конкурировать с проприетарными решениями, превосходя порой их.
Одним из ключевых показателей стала комплексная оценка по множеству бенчмарков с впечатляющими баллами, что подтверждает высокую способность к обработке и генерации знаний в разнообразных контекстах. Отличительной чертой Tongyi DeepResearch является целостный и доказанный методический подход к обучению интеллектуальных агентов. На базе полностью синтетических данных команда разработчиков создала уникальную синтетическую петлю данных AgentFounder, которая отвечает за генерацию разнообразных обучающих выборок и их циклическое улучшение. Система охватывает полный цикл - начиная с продолжительного предварительного обучения (Continual Pre-training), переходя к тонкой настройке (Supervised Fine-Tuning) и завершаясь продвинутым этапом обучения с подкреплением (Reinforcement Learning). Использование исключительно синтетических данных для предварительного и пост-тренировочного этапов является одной из наиболее важных инноваций Tongyi DeepResearch.
Синтез данных происходит на основе сложной структуры, где источники исторической информации, результаты поиска, данные из графов знаний и другие интеллектуальные ресурсы преобразуются в богато аннотированные QA-пары и действия - что формирует прочный фундамент для обучения устойчивой и эффективной модели. Это позволяет не только создавать масштабные наборы с высоким качеством, но и систематически повышать сложность интерактивных задач, подтягивая модель к интеллектуальному уровню, схожему с человеческим. Особое внимание уделено генерации вопросов и ответов высокого уровня, включая многопроходное усложнение за счет формальных моделей теорий сложности и операций с данными. Такой изящный подход гарантирует, что вопросы не только реалистичны, но и обладают прогрессирующей степенью трудности, стимулируя модель к глубинным рассуждениям и тщательному анализу. Инновационные алгоритмы синтеза действий способствуют комплексному моделированию многошаговых решений - тем самым расширяя горизонты агентного мышления, воспроизводя логику принятия решений и планирование в сложных сценариях.
За счет этого агент способен последовательно и осознанно выполнять сложные задачи без необходимости сторонних коммерческих API-вызовов, что существенно повышает автономность и надежность системы. Архитектурно Tongyi DeepResearch опирается на проверенные многотуровые методы рассуждения, объединяя классический ReAct и передовой IterResearch. ReAct обеспечивает функциональность в формате "Мысль-Действие-Наблюдение", позволяя модели непрерывно взаимодействовать с внешней средой, анализировать результаты и корректировать ход решения. IterResearch, в свою очередь, становится ключом к преодолению ограничений традиционных контекстных окон за счет разбиения сложных задач на этапы с повторным конструированием рабочей области, что помогает избежать "когнитивного удушья" и потери фокуса при длительных сессиях исследования. Новая парадигма построена на итеративном процессе синтеза и реконструкции, обеспечивающем высокое качество рассуждений в ходе многопроходных исследований.
Концепция Research-Synthesis выводит это на следующий уровень, позволяя нескольким агентам параллельно изучать разные аспекты проблемы, а затем объединять результаты и делать всеобъемлющие выводы. Такой подход увеличивает глубину и широту анализа, создавая возможности для решения действительно сложных и объемных исследовательских задач. Особое внимание в проекте уделено развитию и обучению агентов посредством структурированного трехэтапного цикла: продолжительного предобучения, "холодного" стартового обучения с контролем и интеграции на экспертных данных и, наконец, обучения с подкреплением на основе собственной среды. Алгоритмические новшества включают Group Relative Policy Optimization с низкой дисперсией оценки преимуществ и стратегическими фильтрами негативных сэмплов, что позволяет добиться высокой стабильности обучения и избежать деградации формата вывода. Для снижения зависимости от живых внешних веб-API, которые характеризуются высокой стоимостью, медленной скоростью и нестабильностью, была создана имитационная среда, основанная на локальной базе Википедии и кастомизируемом наборе инструментов.
Это обеспечило оперативность итераций и повышенную управляемость исследовательским процессом. В инфраструктуру также интегрирован единый песочникообразный инструментальный набор со средствами обработки сбоев и конкуренции, который гарантирует надежное использование инструментов и сохранность траекторий обучающих данных. Автоматизация синтеза и фильтрации данных позволяет в режиме реального времени оптимизировать тренировочные наборы, повышая качество обучения и улучшая модели без необходимости постоянного ручного вмешательства. Параллельно разработан асинхронный фреймворк обучения с подкреплением, где несколько экземпляров агентов взаимодействуют с симуляцией одновременно, что способствует ускоренной генерации обучающих траекторий и повышает эффективность обучения. Помимо исследовательской ценности, Tongyi DeepResearch уже доказал свою практическую значимость, применившись в рядах реальных промышленных решений.
Примером служит Gaode Mate - интеллектуальный помощник для картографических и навигационных сервисов, способный планировать сложные маршруты с учетом предпочтений пользователя, включая подробные и персонализированные детали путешествий. Другим значимым примером является Tongyi FaRui - агент для юридического исследования, который выполняет многократные поисковые задачи, сопоставляет прецеденты и правовые нормы с достоверным цитированием, обслуживая функцию младшего юриста с уровнями точности, необходимыми для профессиональной практики. Тем не менее, команда Tongyi DeepResearch не останавливается на достигнутом и ждет решения ряда оставшихся вызовов. Среди них - расширение пределов контекстного окна сверх современного показателя в 128 тысяч токенов, что особенно актуально для клиентов и исследователей, работающих с экстремально длинными и сложными задачами. Кроме того, предстоит подтвердить эффективность обучения на моделях значительно большего масштаба, освоить частичные rollout-методы и найти решения для проблем обучения вне политики с учетом смещения распределений.
Tongyi DeepResearch и сопровождающие его проекты из семейства DeepResearch Agents поддерживают широкую исследовательскую программу по созданию умных, масштабируемых и автономных интеллектуальных систем. Опубликованные научные работы охватывают целый спектр направлений и технологий, от обзоров веб-ориентированных агентов поиска до синтеза данных и моделирования долгосрочных планов. Таким образом, проект не просто демонстрирует возможности современного ИИ, но и формирует новое направление в развитии открытых платформ и инструментов для агентных систем. Это открывает возможности для широкого сообщества исследователей и разработчиков, ускоряя внедрение передовых технологий в практические приложения и способствуя качественному скачку в области интеллектуальных ИИ-агентов. Tongyi DeepResearch задает тренды и стандарты, они становятся фундаментом для грядущих поколений интеллектуальных ассистентов.
Этот проект иллюстрирует, что при правильной архитектуре и стратегически продуманном обучении открытые ИИ-модели способны не только не уступать, но и превосходить существующие проприетарные решения, что знаменует собой новую эру открытых исследовательских искусственных интеллектов с безграничным потенциалом для науки и бизнеса. .