Альткойны Стейблкоины

Cartridges: революция в работе с длинными контекстами в больших языковых моделях

Альткойны Стейблкоины
Cartridges: Lightweight long context representations via self-study

Изучение инновационного подхода Cartridges, который позволяет эффективно работать с длинными контекстами в больших языковых моделях, снижая затраты памяти и повышая скорость обработки текстов с помощью метода self-study.

Современные большие языковые модели (БЯМ) играют ключевую роль в решении множества задач, связанных с обработкой естественного языка. Они широко используются для генерации текстов, анализа документов, поддержки диалогов и ответов на вопросы. Одной из важных особенностей таких моделей является возможность работать с контекстом — набором входных данных, на основе которых формируется ответ. В то время как контекст может иметь разную длину, обработка очень больших по объему текстов, например, правовых документов, кода или истории чатов, традиционно является сложной задачей из-за технических ограничений и больших затрат вычислительных ресурсов. Технология Cartridges предлагает принципиально новый и эффективный подход к работе с длинными контекстами, позволяя существенно экономить ресурсы и повышать производительность моделей.

В традиционном подходе, когда требуется анализировать длинный документ, весь текст помещается в окно контекста модели. Современные большие языковые модели поддерживают длину контекста около 100 тысяч до миллиона токенов, что позволяет работать с объемными корпусами данных. Однако такой метод не лишен недостатков. За счет большой длины контекста значительно растет объем требуемой оперативной памяти для хранения KV-кэша — структуры данных, которая используется во время работы модели для быстрого доступа к информации. Этот фактор усложняет и удорожает развертывание систем, особенно при необходимости обрабатывать множество разнообразных запросов на одном и том же корпусе текстов.

Идея Cartridges заключается в том, чтобы сменить парадигму использования KV-кэша. Вместо того чтобы динамически строить его во время каждого запроса, предлагается предварительно обучить компактный KV-кэш, относящийся к конкретному корпусу и загрузить этот «Картридж» при работе с моделью. Это позволяет зафиксировать и оптимизировать представление больших текстов в легковесной форме, которую можно многократно использовать без необходимости повторной обработки всего корпуса при каждом запросе. Таким образом, цена создания Картриджа амортизируется при множестве обращений к одному и тому же источнику. Первоначальные эксперименты с тренировкой Картриджа по классической задаче предсказания следующего токена на исходном корпусе не давали оправданных результатов и не могли полноценно заменить встроенное использование длинного контекста через in-context learning (ICL).

Для достижения высокой производительности команда разработчиков из разных научных и промышленных институтов предложила инновационную методику под названием self-study — самообучение. В рамках этого подхода осуществляется генерация искусственных диалогов, основанных на содержимом корпуса. Затем Картридж обучается на задаче контекстной дистилляции, что позволяет ему воспроизводить поведение in-context learning, но при значительно меньших вычислительных затратах. Self-study открывает новые горизонты в работе с длинными контекстами. Картриджи, обученные с использованием этого метода, достигают уровня производительности, сопоставимого с традиционным in-context learning.

При этом они уменьшают расход памяти почти в 40 раз и обеспечивают ускорение работы модели в 26 раз, что особенно важно при масштабировании систем и обслуживании большого числа запросов в реальном времени. Еще одно важное преимущество метода заключается в значительном расширении эффективной длины контекста. Например, на специализированном наборе тестов MTOB длина контекста при использовании Cartridges увеличивается с 128 тысяч до 484 тысяч токенов. Это преимущество дает большие возможности в области анализа больших текстовых масс без компромиссов в качестве генерации ответов. Особенно интересно, что Cartridges, обученные через self-study, обладают способностью к компоновке во время работы без необходимости повторного обучения.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Starcloud says 1 launch, $8M but ISS tech says 17 launches, $850M+
Среда, 24 Сентябрь 2025 Зачем данные центры в космосе требуют гораздо больше запусков, чем заявляет Starcloud?

Анализ технологических и экономических реалий размещения орбитальных дата-центров показывает, почему оценки компании Starcloud о единственном запуске и стоимости в 8 миллионов долларов далеки от реальности. На примере технологий Международной космической станции раскрываются главные проблемы масштабирования космических вычислений и охлаждения инфраструктуры.

Why Postgres needs better connection security defaults
Среда, 24 Сентябрь 2025 Почему PostgreSQL нуждается в улучшении стандартных настроек безопасности соединений

Подробное рассмотрение проблем с текущими настройками безопасности соединений в PostgreSQL, анализ уязвимостей sslmode=require, обсуждение новых методов защиты и перспектив развития более надёжных стандартных параметров подключения к базе данных.

Researchers develop a battery cathode material that does it all
Среда, 24 Сентябрь 2025 Универсальный катод для аккумуляторов: революция в литий-ионных батареях с материалом Li1.3Fe1.2Cl4

Новое исследование раскрывает уникальный катодный материал для аккумуляторов, который сочетает в себе высокую проводимость, вместимость, долговечность и способность к самовосстановлению. Использование доступных элементов и инновационный состав обещают сделать революцию в производстве современных батарей, особенно для электромобилей и портативной электроники.

Book authors made the wrong arguments in Meta AI training case, judge says
Среда, 24 Сентябрь 2025 Почему аргументы авторов книг оказались неубедительными в деле против Meta об использовании AI для обучения

Рассмотрение судебного дела между авторами книг и компанией Meta, касающегося использования защищённых авторским правом произведений для обучения искусственного интеллекта, и почему судья посчитал, что именно позиция авторов не выдержала проверки.

Harry Potter and the Cuaron Slam
Среда, 24 Сентябрь 2025 Магия кинематографа и литературы: почему «Гарри Поттер и узник Азкабана» Альфонсо Куарона стал шедевром

Анализ уникального подхода Альфонсо Куарона к съемкам фильма «Гарри Поттер и узник Азкабана» и его влияние на восприятие истории в контексте литературного творчества и режиссерского мастерства.

Adding a trash can to Linux with trash-CLI
Среда, 24 Сентябрь 2025 Как добавить корзину в Linux с помощью trash-CLI: удобное решение для безопасного удаления файлов

Решение для безопасного удаления файлов в Linux через командную строку с помощью утилиты trash-CLI поможет избежать случайной потери данных и обеспечит удобное управление удалёнными объектами.

Bitcoin stays confined to $100k–$110k band as realized profit and network activity recede
Среда, 24 Сентябрь 2025 Bitcoin удерживается в диапазоне $100k–$110k на фоне снижения прибыли и активности сети

Анализ текущей ситуации на рынке Bitcoin: почему цена криптовалюты остается в узком диапазоне, влияние снижения реализованной прибыли и активности в сети на динамику курса и прогнозы на ближайшее будущее.