В последние годы мир технологий переживает бурный рост возможностей искусственного интеллекта, особенно в области обработки естественного языка. Крупные языковые модели (LLM) становятся основой для многих передовых приложений, от чат-ботов до систем машинного перевода и творческого письма. В 2025 году одним из основных вопросов остается — насколько же крупны эти модели, и как изменился их масштаб за последние несколько лет? История развития крупных языковых моделей показывает впечатляющую динамику. Путь начался с относительно небольших моделей, таких как GPT-2, появившейся в 2019 году. В то время модели с количеством параметров от сотен миллионов до 1,61 миллиарда уже считались большими.
GPT-2 училась на датасете WebText, который состоял примерно из 40 гигабайт текстовых данных, что соответствовало приблизительно 10 миллиардам токенов. Именно тогда сообщество впервые увидело потенциал масштабных моделей, способных создавать связные и информативные тексты. Следующим крупным этапом стала модель GPT-3, выпущенная в 2020 году. Эта архитектура насчитывала 175 миллиардов параметров и обучалась на данных с более чем 400 миллиардами токенов, включая CommonCrawl, обновленные версии WebText, а также книги и Wikipedia. GPT-3 продемонстрировала беспрецедентный уровень универсальности и точности, что заложило фундамент для последующих моделей.
Однако для создания таких моделей требовались огромные вычислительные ресурсы — тысячи графических процессоров A100 работали несколько месяцев в дата-центрах. С 2022 по 2023 год появились версии GPT-3.5 и GPT-4, но подробной информации о их архитектуре и обучающих данных опубликовано не было. Наряду с этим на рынок вышли новые конкуренты и альтернативные модели. Особое внимание заслуживают разработки компании Meta, которая создала линейку LLaMA, включающую модели с 7, 13, 33 и 65 миллиардами параметров.
При этом была представлена LLaMA-3.1 с 405 миллиардами параметров — одна из крупнейших плотных (dense) трансформерных моделей. Она обучалась на сверхбольшом датасете, насчитывающем почти 3,7 триллиона токенов, включая код и математические данные, что повышало эффективность на специализированных задачах. В 2025 году Meta анонсировала LLaMA-4, модель с внушительным числом параметров — 2 триллиона, использующую подход mixture-of-experts (MoE). В такой архитектуре активируется лишь небольшая часть параметров на каждый запрос, что позволяет создавать модели больше в разы, сохраняя возможность работы на приемлемом аппаратном обеспечении.
Пока эта версия не была выпущена публично, но меньшие модели LLaMA 4, созданные на её основе, уже доступны, хотя и критикуются за снижение качества и интеллекта в сравнении с предыдущими релизами. Ранее долгое время не было возможности получить модели, сравнимые с GPT-3 по размеру и производительности, что затрудняло исследовательские и коммерческие проекты. Ситуация начала изменяться в конце 2023 года, когда появились MoE-модели, такие как Mixtral и DeepSeek V3, которые благодаря своей архитектуре и возможности активировать лишь часть параметров, смогли достичь масштабов, сравнимых и превосходящих GPT-3. DeepSeek V3, выпущенный в конце 2024 года, насчитывал 671 миллиард параметров MoE и 37 миллиардов активируемых. Модель обучалась на огромном датасете из почти 15 триллионов токенов, что позволило ей проявить возможности, сопоставимые с GPT-4.
Множество новых моделей 2024–2025 годов продолжают расширять границы возможного. Databricks выпустила модель DBRX с 132 миллиардами параметров и 12 триллионами токенов, а компания MiniMax AI представила MiniMax-Text-01 с внушительными 456 миллиардами параметров и глубокой смесью экспертов для выбора наиболее релевантных путей вычисления. Эти модели демонстрируют всё более сложные архитектуры и поднимают требования к вычислительным ресурсам. Они часто включают элементы мультимодальности и мультилингвальности, чтобы учесть разнообразие данных и задач современного ИИ. Среди моделей, вышедших летом 2025 года, выделяются Dots LLM1 с архитектурой, позволяющей эффективно обрабатывать контексты длиной до 32 тысяч токенов — это огромный скачок для задач, требующих длительного контекстного понимания.
В то же время Hunyuan от Tencent и Ernie от Baidu демонстрируют, что китайские разработчики догоняют лидеров отрасли, интегрируя крупные MoE-архитектуры и работая с триллионными объемами обучающих данных. Одна из главных проблем, с которыми сталкиваются современные модели — это баланс между качеством и плотностью параметров. Dense-модели используют все параметры при каждом выводе, что требует значительных ресурсов и сложной оптимизации. MoE-модели, напротив, с помощью выбора «экспертов» активируют лишь часть весов, позволяя обходить многие аппаратные ограничения. Однако пока не до конца понятно, насколько такой разреженный подход влияет на «интеллект» модели и её универсальность.
Проводимые сейчас бенчмарки не дают окончательного ответа, и эксперты предполагают, что модель с большим количеством плотных параметров может иметь преимущества в определённых типах задач. Не менее важным становится вопрос источников данных. Исторически говорили о том, что обучение идет на интернет-текстах, книгах и энциклопедиях. Однако с ростом масштабов моделей в игру вступают новые технологии — синтетические данные, специализированные репозитории кода и математических формул, а также мультимодальные датасеты, включающие изображение, звук и даже видео. Это расширяет функциональность моделей и влияет на их архитектурные решения.
В 2025 году рынок стало активно заполнять множество свободных и открытых моделей, что меняет правила игры. Теперь ученые и разработчики по всему миру могут получить доступ к крупным языковым моделям, не завися от закрытых решений с высокими лицензионными издержками. Это способствует развитию инноваций и более свободному развитию технологий искусственного интеллекта. Если смотреть в будущее, модельный зоопарк вероятно станет ещё разнообразнее. Помимо трансформеров будут появляться инновационные архитектуры, такие как RWKV, byte-latent и bitnet, которые обещают более эффективное использование вычислительных ресурсов при таких же или даже лучших показателях.
Важным остается поиск оптимальных методов обучения, в частности с точки зрения качества данных и предотвращения деградации моделей из-за использования синтетических наборов. Ведь качество и масштаб модели напрямую влияют на её способность генерировать осмысленные и корректные тексты. Подводя итог, можно отметить, что «крупные» языковые модели в 2025 году выросли от сотен миллионов параметров до нескольких триллионов, при этом в игру вступают новые архитектуры, которые позволяют создавать ещё более масштабные и разнообразные решения. Рост объёма данных и сложность моделей ведут к необходимости новых методов обучения и оптимизации. Перспективы развития направлены на то, чтобы сделать ИИ ещё более универсальным, мощным и доступным для широкого круга пользователей и задач.
Развитие LLM продолжается быстрыми темпами, меняя лицо технологий и влияя на будущее коммуникации и получения знаний.