Юридические новости Продажи токенов ICO

Насколько крупны крупные языковые модели в 2025 году: взгляд на масштаб и развитие

Юридические новости Продажи токенов ICO
How large are large language models? (2025)

Анализ современных тенденций масштабирования крупных языковых моделей, их архитектуры и трендов развития в 2025 году. Обзор важных событий за последние годы и перспективы будущих технологий в области ИИ и NLP.

В последние годы мир технологий переживает бурный рост возможностей искусственного интеллекта, особенно в области обработки естественного языка. Крупные языковые модели (LLM) становятся основой для многих передовых приложений, от чат-ботов до систем машинного перевода и творческого письма. В 2025 году одним из основных вопросов остается — насколько же крупны эти модели, и как изменился их масштаб за последние несколько лет? История развития крупных языковых моделей показывает впечатляющую динамику. Путь начался с относительно небольших моделей, таких как GPT-2, появившейся в 2019 году. В то время модели с количеством параметров от сотен миллионов до 1,61 миллиарда уже считались большими.

GPT-2 училась на датасете WebText, который состоял примерно из 40 гигабайт текстовых данных, что соответствовало приблизительно 10 миллиардам токенов. Именно тогда сообщество впервые увидело потенциал масштабных моделей, способных создавать связные и информативные тексты. Следующим крупным этапом стала модель GPT-3, выпущенная в 2020 году. Эта архитектура насчитывала 175 миллиардов параметров и обучалась на данных с более чем 400 миллиардами токенов, включая CommonCrawl, обновленные версии WebText, а также книги и Wikipedia. GPT-3 продемонстрировала беспрецедентный уровень универсальности и точности, что заложило фундамент для последующих моделей.

Однако для создания таких моделей требовались огромные вычислительные ресурсы — тысячи графических процессоров A100 работали несколько месяцев в дата-центрах. С 2022 по 2023 год появились версии GPT-3.5 и GPT-4, но подробной информации о их архитектуре и обучающих данных опубликовано не было. Наряду с этим на рынок вышли новые конкуренты и альтернативные модели. Особое внимание заслуживают разработки компании Meta, которая создала линейку LLaMA, включающую модели с 7, 13, 33 и 65 миллиардами параметров.

При этом была представлена LLaMA-3.1 с 405 миллиардами параметров — одна из крупнейших плотных (dense) трансформерных моделей. Она обучалась на сверхбольшом датасете, насчитывающем почти 3,7 триллиона токенов, включая код и математические данные, что повышало эффективность на специализированных задачах. В 2025 году Meta анонсировала LLaMA-4, модель с внушительным числом параметров — 2 триллиона, использующую подход mixture-of-experts (MoE). В такой архитектуре активируется лишь небольшая часть параметров на каждый запрос, что позволяет создавать модели больше в разы, сохраняя возможность работы на приемлемом аппаратном обеспечении.

Пока эта версия не была выпущена публично, но меньшие модели LLaMA 4, созданные на её основе, уже доступны, хотя и критикуются за снижение качества и интеллекта в сравнении с предыдущими релизами. Ранее долгое время не было возможности получить модели, сравнимые с GPT-3 по размеру и производительности, что затрудняло исследовательские и коммерческие проекты. Ситуация начала изменяться в конце 2023 года, когда появились MoE-модели, такие как Mixtral и DeepSeek V3, которые благодаря своей архитектуре и возможности активировать лишь часть параметров, смогли достичь масштабов, сравнимых и превосходящих GPT-3. DeepSeek V3, выпущенный в конце 2024 года, насчитывал 671 миллиард параметров MoE и 37 миллиардов активируемых. Модель обучалась на огромном датасете из почти 15 триллионов токенов, что позволило ей проявить возможности, сопоставимые с GPT-4.

Множество новых моделей 2024–2025 годов продолжают расширять границы возможного. Databricks выпустила модель DBRX с 132 миллиардами параметров и 12 триллионами токенов, а компания MiniMax AI представила MiniMax-Text-01 с внушительными 456 миллиардами параметров и глубокой смесью экспертов для выбора наиболее релевантных путей вычисления. Эти модели демонстрируют всё более сложные архитектуры и поднимают требования к вычислительным ресурсам. Они часто включают элементы мультимодальности и мультилингвальности, чтобы учесть разнообразие данных и задач современного ИИ. Среди моделей, вышедших летом 2025 года, выделяются Dots LLM1 с архитектурой, позволяющей эффективно обрабатывать контексты длиной до 32 тысяч токенов — это огромный скачок для задач, требующих длительного контекстного понимания.

В то же время Hunyuan от Tencent и Ernie от Baidu демонстрируют, что китайские разработчики догоняют лидеров отрасли, интегрируя крупные MoE-архитектуры и работая с триллионными объемами обучающих данных. Одна из главных проблем, с которыми сталкиваются современные модели — это баланс между качеством и плотностью параметров. Dense-модели используют все параметры при каждом выводе, что требует значительных ресурсов и сложной оптимизации. MoE-модели, напротив, с помощью выбора «экспертов» активируют лишь часть весов, позволяя обходить многие аппаратные ограничения. Однако пока не до конца понятно, насколько такой разреженный подход влияет на «интеллект» модели и её универсальность.

Проводимые сейчас бенчмарки не дают окончательного ответа, и эксперты предполагают, что модель с большим количеством плотных параметров может иметь преимущества в определённых типах задач. Не менее важным становится вопрос источников данных. Исторически говорили о том, что обучение идет на интернет-текстах, книгах и энциклопедиях. Однако с ростом масштабов моделей в игру вступают новые технологии — синтетические данные, специализированные репозитории кода и математических формул, а также мультимодальные датасеты, включающие изображение, звук и даже видео. Это расширяет функциональность моделей и влияет на их архитектурные решения.

В 2025 году рынок стало активно заполнять множество свободных и открытых моделей, что меняет правила игры. Теперь ученые и разработчики по всему миру могут получить доступ к крупным языковым моделям, не завися от закрытых решений с высокими лицензионными издержками. Это способствует развитию инноваций и более свободному развитию технологий искусственного интеллекта. Если смотреть в будущее, модельный зоопарк вероятно станет ещё разнообразнее. Помимо трансформеров будут появляться инновационные архитектуры, такие как RWKV, byte-latent и bitnet, которые обещают более эффективное использование вычислительных ресурсов при таких же или даже лучших показателях.

Важным остается поиск оптимальных методов обучения, в частности с точки зрения качества данных и предотвращения деградации моделей из-за использования синтетических наборов. Ведь качество и масштаб модели напрямую влияют на её способность генерировать осмысленные и корректные тексты. Подводя итог, можно отметить, что «крупные» языковые модели в 2025 году выросли от сотен миллионов параметров до нескольких триллионов, при этом в игру вступают новые архитектуры, которые позволяют создавать ещё более масштабные и разнообразные решения. Рост объёма данных и сложность моделей ведут к необходимости новых методов обучения и оптимизации. Перспективы развития направлены на то, чтобы сделать ИИ ещё более универсальным, мощным и доступным для широкого круга пользователей и задач.

Развитие LLM продолжается быстрыми темпами, меняя лицо технологий и влияя на будущее коммуникации и получения знаний.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
 Bybit, OKX expand crypto services in Europe under MiCA
Четверг, 02 Октябрь 2025 Bybit и OKX расширяют криптоуслуги в Европе благодаря регуляции MiCA

Крупные криптобиржи Bybit и OKX выводят свои сервисы на европейский рынок, воспользовавшись новым регуляторным режимом MiCA, который стандартизирует правила и упрощает деятельность криптокомпаний в Европейской экономической зоне. Влияние MiCA меняет ландшафт криптоиндустрии и открывает новые возможности для трейдеров и инвесторов.

PrimeXBT Launches ‘Trade as VIP’ Campaign Offering 70% Off Trading Fees
Четверг, 02 Октябрь 2025 PrimeXBT запускает акцию «Торгуй как VIP»: скидка 70% на торговые комиссии

Узнайте о новой акции от PrimeXBT, которая предоставляет трейдерам уникальную возможность торговать с большими скидками на комиссии. В статье раскрываются условия кампании, преимущества для пользователей и потенциальное влияние на рынок криптовалютной торговли.

WEMADE & Redlab Unleash Web3 MMORPG – Global Pre-Registration Open for Aug 2025
Четверг, 02 Октябрь 2025 WEMADE и Redlab представляют Web3 MMORPG ROM: Golden Age с глобальной предрегистрацией на август 2025 года

Крупнейшие игроки в индустрии онлайн-игр WEMADE и Redlab Games объявили о начале глобальной предрегистрации на инновационную Web3 MMORPG ROM: Golden Age, которая обещает революционизировать игровой опыт с помощью современных блокчейн-технологий, уникальной экономической модели и множества эксклюзивных возможностей для игроков по всему миру.

No. 1 DeFi Protocol on Aptos, Echo, Launches Token Generation Event
Четверг, 02 Октябрь 2025 Echo — ведущий DeFi-протокол на Aptos запускает генерацию токенов и открывает новые возможности для Bitcoin DeFi

Echo стал крупнейшим протоколом на блокчейне Aptos, предлагая инновационные решения для ликвидности и заработка на биткоинах. Запуск Token Generation Event открывает новую главу в развитии экосистемы BTCfi на Aptos, расширяя возможности для пользователей и разработчиков.

2 Unstoppable Stocks to Buy With Great Upside Potential
Четверг, 02 Октябрь 2025 Два Неостановимых Акций с Огромным Потенциалом Роста для Инвесторов

Анализ перспективных акций Amazon и Roku, раскрывающий причины уверенного роста их стоимости и потенциал для долгосрочного инвестирования с выгодой для портфеля.

Kirkland’s accelerates transformation with leadership appointments
Четверг, 02 Октябрь 2025 Kirkland’s: Новая Эра Трансформации и Лидерства в Домашнем Ритейле

Kirkland’s активно реализует стратегические изменения, укрепляя свои позиции на рынке домашнего декора и расширяя возможности многофирменной розничной торговли через ключевые назначения в руководстве. Обзор последних трансформаций и ролей новых лидеров в развитии компании.

Meeka Metals begins gold production at Murchison project, Australia
Четверг, 02 Октябрь 2025 Meeka Metals запускает производство золота на проекте Мёрчисон в Австралии

Компания Meeka Metals объявила о начале производства золота на своем проекте Мёрчисон в Западной Австралии, что стало важным этапом в развитии высокодоходного горнорудного предприятия с перспективами значительного роста и устойчивого развития.