Современный темп развития научных исследований и сжатые сроки публикаций создают значительные трудности для учёных и исследователей в попытках оставаться в курсе последних тенденций и открытий. Колоссальный объем научной литературы постоянно растёт, порождая необходимость использования новых технологий для эффективного поиска, анализа и синтеза информации. В последние годы крупные языковые модели (LLM) стали мощным инструментом, способным значительно облегчить работу с научными текстами. Однако, несмотря на успехи в разработке таких моделей, оценка их качества и эффективности в решении открытых и комплексных научных задач остаётся серьёзным вызовом. Традиционные методы тестирования часто оказываются недостаточными: они статичны, ограничены по масштабу и быстро устаревают с выходом новых данных и методов.
Именно для преодоления этих проблем была создана SciArena — открытая платформа, служащая местом встреч и взаимодействия научного сообщества и передовых моделей искусственного интеллекта. Основная идея SciArena заключается в том, чтобы через коллективные усилия и голосование ученых оценивать ответы языковых моделей на задачи, связанные с научной литературой. Подход «голосования сообщества» вдохновлён такими успешными проектами, как Chatbot Arena, но SciArena уникальна своим акцентом на научную тематику и специфику академической работы. Платформа включает три ключевых компонента. Первый — сама SciArena, где учёные могут задавать вопросы, сравнивать ответы разных моделей и выбирать наиболее релевантный и информативный.
Второй — рейтинг моделей, который формируется на основе системы Elo, отслеживающей динамические изменения в производительности и качестве предложенных ответов. Третий — SciArena-Eval, мета-метрика, позволяющая оценить точность автоматических систем оценки моделей, основанную на собранных данных с голосованием исследователей. Важной особенностью SciArena является использование продвинутой многоступенчатой системы поиска и извлечения информации, построенной на технологиях, разработанных институтом Ai2. Этот ретривал-пайплайн включает разложение запроса на составные части, выбор и ранжирование релевантных отрывков из научных публикаций. Такие меры позволяют моделям создавать ответы, напрямую опирающиеся на актуальные и достоверные источники, обогащая их подробными цитатами и ссылками на первоисточники.
С начала работы SciArena успела привлечь внимание и доверие престижного сообщества учёных: уже более 100 исследователей, имеющих профиль и опыт публикаций, приняли участие в оценке более 13 тысяч пар ответов, предоставленных 23 современными языковыми моделями. Среди них выделяется модель под маркировкой о3, стабильно демонстрирующая лучшие результаты по всему спектру научных дисциплин. Особенно интересно, что о3 превосходит соперников в технической глубине ответов в инженерных науках и предоставляет наиболее подробный обзор цитируемых исследований. Другие модели показывают свою силу в специализированных областях — Claude-4-Opus достигает высоких результатов в здравоохранении, тогда как DeepSeek-R1-0528 силён в естественных науках. Тем не менее, сама система оценки сталкивается с трудностями.
Несмотря на высокие показатели модели о3, она достигает точности лишь около 65% при предсказании предпочтений людей, что ниже результатов, зарегистрированных в более общих тестовых средах. Это подчёркивает сложность создания надёжных автоматизированных методов оценки в научной сфере, требующей глубокого понимания и интерпретации сложных материалов. Для повышения качества и доверия к собранным данным в SciArena была разработана строгая система контроля качества. Все участники проходили обязательное обучение и имели подтверждённый опыт работы с научной литературой и искусственным интеллектом. Анализ уровня согласованности оценок показывает высокий уровень надёжности и согласованности решений экспертов даже при субъективных и сложных вопросах.
Такие меры гарантируют, что голосование на платформе отражает истинные предпочтения и экспертные взгляды, минимизируя влияние случайных факторов. Экспериментальный и постоянный характер платформы позволяет SciArena не только фиксировать текущий уровень и динамику развития моделей, но и обеспечивать открытую площадку для внедрения новых исследовательских результатов и технологий. Постоянное обновление списка моделей и совершенствование методологии направлены на создание живой и актуальной базы для тех, кто занимается искусственным интеллектом в науке. В будущем SciArena планирует расширить возможности платформы, включая в оценку не только сами языковые модели, но и другие ключевые элементы систем с возвращением к источникам (Retrieval-Augmented Generation). Например, исследование влияния различных индексов для поиска, методов запросов и стратегий интеграции информации может значительно обогатить понимание и качество ответов.
Партнерство с разработчиками позволит оперативно обновлять платформу новыми передовыми моделями и технологиями. Итогом работы SciArena становится не только создание подробной и прозрачной картины эффективности языковых моделей в научной литературе, но и формирование принципов и стандартов для будущей работы в области искусственного интеллекта и научного анализа. Платформа способствует развитию коллаборативного подхода — весомого фактора для преодоления вызовов современного научного поиска и интерпретации. Таким образом, SciArena открывает новые горизонты для исследовательского сообщества, предоставляя уникальный инструмент для объективной, масштабной и динамичной оценки искусственного интеллекта в услугах науки. Благодаря проекту, разработчики моделей смогут лучше понять свои сильные и слабые стороны, а учёные — получить надежных помощников в обработке и интерпретации огромных массивов научной информации.
Платформа уже сегодня меняет подход к тому, как мы создаём и оцениваем интеллектуальные технологии в самых сложных и многогранных областях человеческого знания.