В последние годы мир искусственного интеллекта переживает настоящий бум интереса к большим языковым моделям (LLM). Их потенциал в решении сложных задач, таких как математические вычисления и программирование, обнадеживает исследователей и разработчиков. Недавно на сцену вышла модель K2-Think, которая позиционировалась как инновационное решение с выдающейся производительностью при сравнительно небольшом количестве параметров. Однако последние аналитические обзоры, проведённые исследователями из ETH Zürich, выявили ряд серьёзных проблем и искажений в подаче и оценке результатов K2-Think, что существенно меняет восприятие её достижений. K2-Think представляется как модель с качествами, сопоставимыми с такими крупными системой, как GPT-OSS 120B и DeepSeek v3.
1, при этом в её основе лежит лишь 32-миллиардный параметр. Это привлекло широкое внимание в профильных СМИ и быстро распространилось в профессиональном сообществе. Тем не менее, тщательное исследование методики оценки и сравнений показало, что данная модель не достигает заявленных высот и даже уступает по производительности конкурентам схожего размера. Одной из главных проблем является использование несовершенных и загрязнённых данных для обучения и тестирования модели. В частности, данные из DeepScaleR и связанные с ним задачи из Omni-Math включены как в обучающий, так и в тестовый наборы, что нарушает основные принципы объективной оценки.
Анализ методом приближенного сопоставления строк выявил, что примерно половина тестовых задач в Omni-Math уже встречалась модели в процессе обучения, что даёт явное преимущество и искажает результаты. Подобная ситуация наблюдается и в рамках LiveCodeBench - около четверти задач тестирования совпадают с данными из обучающего набора, из-за чего валидность результатов в кодировании также сомнительна. Кроме того, в опубликованных результатах K2-Think используют метод "best-of-3", при котором из трёх попыток выбирается лучший результат, тогда как у всех остальных сравниваемых моделей берётся лишь единичная попытка (best-of-1). Это создаёт неравные условия и искусственно повышает показатели K2-Think. Практически вся процедура отборочной оценки проводится с помощью сторонней модели неизвесного размера и характеристик, которая генерирует не только решения, но и детальные планы действий - этот компонент включён в рамки "K2-Think", хотя в действительности он является отдельной фигурой в цепочке обработки, что вводит читателей в заблуждение о реальной мощности и эффективности самой модели.
При исключении вмешательства внешней модели качество K2-Think оказывается ниже, чем у Nemotron 32B - модели, сопоставимой по размерам и обученной схожими методами. Такой парадокс поднимает вопросы о достоверности заявлений, сделанных авторами K2-Think. Сложности возникают и при сравнении с другими моделями. В частности, GPT-OSS, популярная система, оценивается в K2-Think с использованием параметров, которые не раскрыты и не соответствуют рекомендованным настройкам для задач высокого уровня сложности. Это ведёт к получению заниженных показателей конкурентов на фоне завышенных собственных результатов K2-Think.
Что касается Qwen3, то в исследовании использовались старые версии моделей, не учитывающие обновлённые достижения, опубликованные всего за несколько месяцев до релиза K2-Think. Это мешает объективному сравнению, так как последние версии дают прирост производительности в 15-20 % на ключевых тестах по математике и кодированию. При более справедливом тестировании K2-Think отстаёт от новейших версий Qwen3 и даже уступает меньшим по объёму параметров GPT-OSS 20B. На уровне агрегатных показателей математической оценки K2-Think использует усреднение с микровзвешиванием, при котором наибольший вес имеет наиболее сильный для себя тест OmniMath-Hard. Существенная зависимость результатов от одного, к тому же загрязнённого выбором, бенчмарка, создаёт искажённое общее представление об уровне компетенций модели.
Независимая проверка исследователей из ETH Zürich с использованием собственного набора задач MathArena и рекомендованных параметров подтвердила, что K2-Think хоть и остаётся конкурентоспособным решением, но значительно уступает громким заявлениям создателей. Она не достигает даже уровня моделей с меньшим количеством параметров, не говоря уже о топ-решениях. Итоговый вывод очевиден: K2-Think позиционирует себя с преувеличением возможностей на фоне спорных методов оценки и сравнений. Нарушение основных принципов честной оценки моделей, скрытая роль внешних компонентов и искажение параметров конкурентов создают враждебную экосистему развития открытых технологий. Разработчики ИИ и исследовательское сообщество должны быть крайне внимательны к таким практикам, чтобы сохранить доверие и объективность в эволюции моделей.
Возникает необходимость в более прозрачной, строгой и независимой валидации результатов, что позволит создавать и продвигать действительно эффективные решения. В целом открытые модели представляют огромную ценность для всего индустриального и научного сообщества. Однако для их успешного внедрения и оценки необходимо избегать ложных заявлений и фальсификаций в исследованиях. Такие случаи, как с K2-Think, стимулируют дискуссии о стандартах проведения экспериментов и публикаций. Будущие версии модели должны учитывать выявленные замечания, исправлять выявленные ошибки, а также проводить более объективные и честные сравнительные исследования, чтобы заслуженно претендовать на лидерство в сфере больших языковых моделей.
Только в условиях честного соперничества и прозрачности эффективность инновационных систем сможет реализовать весь свой потенциал и принести пользу конечным пользователям по всему миру. .