Интервью с лидерами отрасли

Оценка моделей ИИ в 2025 году: новые стандарты для создания действительно полезных систем

Интервью с лидерами отрасли
Evals in 2025: benchmarks to build models people can use

Обзор современных методов и бенчмарков оценки искусственного интеллекта, направленных на создание эффективных и практичных моделей, которые помогают решать реальные задачи пользователей. .

В 2025 году мир искусственного интеллекта продолжает уверенно двигаться от теоретических исследований к практическому применению. Переход от создания моделей, ориентированных исключительно на достижение общей интеллектуальности, к построению систем, которые "работают хорошо" и полезны для людей, стал ключевым трендом отрасли. Сегодня оценка моделей ИИ проходит по новым стандартам, которые помогают не просто демонстрировать абстрактную закономерность или интеллект, а обеспечивать реальную эффективность и пользу в работе с пользователями. Современные языковые модели чаще всего применяются в роли ассистентов, помогающих в программировании, ведении административной работы, исследовании информации и других ежедневных задачах. Поэтому ключевым в 2025 году становится создание именно таких ассистентов, которые способны понимать неоднозначные запросы, планировать выполнение многозадачных операций, грамотно использовать ресурсы и инструменты, не отклоняться от цели и при этом работать без ошибок и "галлюцинаций".

Для оценки подобных моделей недостаточно тестировать их только на отдельные навыки. Требуется комплексный подход, предполагающий проверку отдельных способностей в процессе разработки, измерение интегрированных результатов на реалистичных сценариях и оценку адаптивности в динамичных средах. Такой многослойный подход позволяет сформировать полное представление о том, насколько ассистент способен справляться с вызовами реального мира. Ключевые направления оценки включают проверку умений рассуждения и использования здравого смысла. Исторически для этих целей применялись датасеты, созданные в эпоху BERT и моделей на основе эмбеддингов, например ARC, WinoGrande, HellaSwag и CommonsenseQA.

Однако они ныне в значительной мере устарели из-за своей простоты и загрязнённости, и используются в основном для предварительной оценки и анализа во время обучения моделей. Новые вызовы требуют более сложных и качественных наборов, способных выявлять глубокое логическое мышление и основанное на реальном понимании поведение. Для оценки знаний моделей долгое время использовался датасет MMLU, который, однако, оказался недостаточно надёжным из-за ошибок, неполноты и культурной предвзятости. В ответ на это были созданы обновлённые версии, включая MMLU-Redux и MMLU-Pro, а также локализации и оценки на предмет культурных искажений. Помимо этого, появились более специализированные наборы вопросов, например GPQA с вопросами уровня PhD и Humanity's Last Exam, задающая сложные междисциплинарные задачи, что обеспечивает более точное измерение глубины знаний модели.

 

Однако даже данные оценки с течением времени теряют актуальность из-за роста возможностей моделей, особенно когда они начинают взаимодействовать с внешними инструментами и базами данных. Переход от закрытых к открытым экзаменам в обучении и оценке моделей отражает современный тренд - главным становится не столько локальная память модели, сколько способность эффективно находить и использовать актуальную информацию. Математические навыки моделей также подвергаются строгой проверке. Наборы задач, такие как GSM8K и MATH, служили классическими тестами на логическое мышление и вычислительные возможности. Однако они со временем достигли насыщения и загрязнились, что породило новые варианты с увеличенным уровнем сложности, включая GSM1K, GSM-Plus и GSM-Symbolic.

 

Существуют также более тяжёлые задачи, как FrontierMath, которые еще сильнее стимулируют развитие математических умений. В 2025 году особое внимание уделяется кодированию и умению модели работать с программным кодом. Это необходимо не только для генерации программ, но и для взаимодействия с различными инструментами и отладки. Исторические датасеты, такие как HumanEval, MBPP и APPS, дополняются новыми, например LiveCodeBench и AiderBench, которые демонстрируют умения моделей в решении современных задач, включая редактирование и рефакторинг кода. Ключевые тренды включают проверку работы с длинным контекстом кода и интеграцию нескольких уровней понимания.

 

Управление длинным контекстом диалога - ещё одна важная сфера оценки. Современные модели способны обрабатывать огромные объемы данных, зачастую превышающие 128 тысяч токенов. Специальные тесты, такие как NIAH, RULER и InfinityBench, измеряют способность моделей сохранять и корректно использовать контекст на разных этапах взаимодействия. Эта характеристика особенно важна для длительных бесед с пользователями и сложных многошаговых задач. В 2025 году оценивается также способность модели точно выполнять инструкции.

Датасеты IFEval и IFBench проверяют, насколько модели могут следовать заданным требованиям по форматированию, стилю и структуре ответа. Это уникальный подход, позволяющий получать чёткие количественные метрики без необходимости привлечения человеческих или автоматических судей. Также исследуется устойчивая невыполнимость запросов с помощью наборов вроде CoCoNot, которые анализируют реакцию моделей на неполные, неясные, небезопасные или невозможные к выполнению команды. Активное развитие получили тесты, направленные на проверку умения моделей работать с внешними инструментами и сервисами. Бенчмарки вроде TauBench, ToolBench и их усовершенствованные версии StableToolBench, а также BFCL демонстрируют, насколько успешно модели способны инициировать и управлять вызовами API, интегрироваться с разными источниками и справляться с многоэтапными задачами.

Новое направление связано с оценкой моделей в среде многоконечных протоколов (MCP), что отражает возрастающую роль мультитуловых систем и взаимодействия с живыми сервисами. Однако проверки отдельных умений не дают полного портрета успешного ассистента. Важным становится тестирование моделей на комплексных задачах, которые требуют одновременного использования нескольких способностей - долгого контекста, планирования, взаимодействия с инструментами и адаптации к изменяющимся условиям. В 2025 году появились бенчмарки, имитирующие реальные сценарии помощников, такие как GAIA, SciCode, DABStep и PaperBench, которые оценивают модели в рабочих процессах из научной, технической и деловой сфер. Игровые тесты предоставляют уникальную возможность оценить гибкость и стратегическое мышление моделей в динамичных и непредсказуемых условиях.

Такие игры, как ARC-AGI, TextQuests, Pokémon и Town of Salem, анализируют способности к планированию, обману, кооперации, а также кlong context management, что помогает выявить уязвимости и сильные стороны систем на практике. Кроме того, игровые площадки дают чёткий критерий успеха - выигрыш или проигрыш, что упрощает интерпретацию результатов. Не менее интересным в 2025 году стало направление прогнозирования будущих событий. Бенчмарки FutureBench, FutureX и Arbitrage предлагают модели задачи, связанные с предсказанием новостей или статистики, требующие мультифакторного анализа и соединения информации из различных источников. Несмотря на ограниченную различимость результатов и множество сложностей, в будущем это направление может стать полезным инструментом для оценки способности ЛЛМ к прогнозному мышлению.

В конечном счёте, развитие оценки моделей искусственного интеллекта в 2025 году направлено на подтверждение их компетентности в реальных условиях с множеством переменных. Оптимальными считаются тесты, которые проверяют способность моделей координировать ключевые навыки, работать в инструментальных экосистемах и адаптироваться к неожиданным ситуациям. Такой сдвиг в оценке мотивирует исследователей и разработчиков создавать системы, которые не просто демонстрируют интеллект, но по-настоящему "работают хорошо" для пользователей, становясь эффективными помощниками в повседневной жизни и профессиональной деятельности. В период быстрого развития технологий важно возвращаться к вопросам прозрачности и функциональной проверки, уменьшая зависимость от субъективных оценок моделей и надеясь на более понятные и воспроизводимые тесты. Это поможет делать выводы о моделях объективными, сравнимыми между собой и действительно ориентированными на нужды реальных пользователей, а не на оптимизацию метрик ради самого процесса.

Заключая, можно сказать, что 2025 год - это время зрелости и системного подхода к оценке искусственного интеллекта. Благодаря новым бенчмаркам и методологиям появилась возможность создавать и тестировать модели, которые не просто впечатляют техническими характеристиками, а по-настоящему полезны и функциональны, что открывает путь к насыщенному будущему взаимодействия человека и машины. .

Автоматическая торговля на криптовалютных биржах

Далее
ByteDance's new Diffusion LLM beats other dLLMs
Четверг, 15 Январь 2026 Новая модель ByteDance Diffusion LLM: прорыв в мире диффузионных языковых моделей

Подробное исследование новой диффузионной языковой модели ByteDance, её технические особенности и преимущества по сравнению с другими диффузионными LLM, а также перспективы применения в различных сферах искусственного интеллекта и машинного обучения. .

Genomic Integration and Molecular Dysregulation in Cancer Following mRNA Vaxx
Четверг, 15 Январь 2026 Геномная интеграция и молекулярные нарушения в раке после вакцинации мРНК: исследование сложных взаимодействий

Подробный разбор потенциальной связи между вакцинацией мРНК против COVID-19 и развитием агрессивных форм рака с акцентом на молекулярные механизмы и геномные изменения. .

Bitcoin, crypto market remain neutral despite Federal Reserve cutting rates by 25bps
Четверг, 15 Январь 2026 Реакция криптовалютного рынка на снижение ставок Федеральной резервной системы: нейтральный баланс при изменениях в экономике США

Федеральная резервная система США снизила ключевую процентную ставку на 25 базисных пунктов, но это решение практически не повлияло на динамику Bitcoin и других криптовалют. Анализ влияния монетарной политики на криптоактивы и прогнозы дальнейшего развития рынка в условиях ожидаемых новых снижений ставок.

Palo Alto Networks Stock is Up, But Analysts Have Raised Their Targets
Четверг, 15 Январь 2026 Акции Palo Alto Networks растут, аналитики повышают прогнозы: перспективы и инвестиционные возможности

Анализ текущей динамики акций Palo Alto Networks, причины их роста и обновленные прогнозы аналитиков, а также рекомендации для инвесторов с учетом последних финансовых показателей компании. .

Ziff Davis, Inc. (ZD): A Bull Case Theory
Четверг, 15 Январь 2026 Как Ziff Davis, Inc. демонстрирует потенциал роста и почему инвесторы обращают на неё внимание

Подробный анализ перспектив и сильных сторон компании Ziff Davis, Inc. , её финансовых показателей, стратегии развития и факторов, влияющих на инвестиционную привлекательность в условиях современного рынка цифровых медиа.

Caesars Entertainment, Inc. (CZR): A Bull Case Theory
Четверг, 15 Январь 2026 Перспективы роста Caesars Entertainment, Inc.: Анализ сильных сторон и инвестиционный потенциал

Обзор ключевых факторов, делающих Caesars Entertainment привлекательной для инвесторов в секторе азартных игр США с акцентом на цифровой бизнес, недвижимость и финансовую стабильность компании. .

Sensient Technologies Corporation (SXT): A Bull Case Theory
Четверг, 15 Январь 2026 Sensient Technologies Corporation: перспективы роста на фоне глобальных изменений в пищевой промышленности

Детальный анализ потенциала роста компании Sensient Technologies Corporation на фоне новых законодательных инициатив и растущего спроса на натуральные пищевые красители, а также влияние этих факторов на финансовые показатели и инвестиционную привлекательность. .