DeFi Майнинг и стейкинг

Достижение рекордных результатов на LongMemEval: как RAG обеспечивает 80% точности в долгосрочной памяти агентов

DeFi Майнинг и стейкинг
Achieving SOTA LongMemEval scores (80%) with RAG alone

Оригинальный опыт компании Mastra в изучении и совершенствовании системы долговременной памяти агентов с помощью Retrieval-Augmented Generation (RAG) и как правильные настройки и инновационные решения помогли достичь 80% точности на сложном бенчмарке LongMemEval.

В современном мире искусственного интеллекта одним из ключевых вызовов остается организация эффективной и точной системы долговременной памяти для агентов. Особенно важно, чтобы AI-системы могли удерживать и правильно использовать информацию, полученную в ходе десятков и сотен взаимодействий, сохраняя контекст и релевантность без существенной деградации качества. Достижение высокого уровня точности при решении таких задач напрямую влияет на качество пользовательского опыта и эффективность автоматизированных систем. Масштабный прорыв в этой области показала компания Mastra, которая, используя принцип Retrieval-Augmented Generation (RAG), смогла добиться рекордных 80% точности на международном бенчмарке LongMemEval, сопоставимых результатов с которыми ранее задавали ведущие игроки рынка. Что такое LongMemEval LongMemEval представляет собой специализированный бенчмарк, предназначенный для оценки способности AI-систем эффективно оперировать долговременной памятью в условиях многозадачности и мультисессионных диалогов.

Сам бенчмарк состоит из 500 вопросов, каждый из которых сопровождается около 50 уникальными диалогами. Важно, что ответ на поставленный вопрос присутствует лишь в одном или нескольких из этих диалогов. Такая архитектура позволяет объективно оценить, насколько корректно система находит и использует релевантную информацию с течением времени и через сотни сообщений. Вызовы традиционных подходов к памяти агентов До появления RAG одной из привычных моделей была использование так называемой «рабочей памяти» – система, призванная хранить ключевые характеристики пользователя, например имя, интересы, предпочтения и другое. Однако такой подход имел ряд ограничений, особенно в долгосрочной перспективе.

Первая попытка Mastra использовать рабочую память для решения задач LongMemEval показала крайне низкие результаты – порядка 20% точности. При объединении с базовой семантической памятью, основанной на векторных индексах, эффективность падала или незначительно улучшалась. Еще одной проблемой была ограниченность шаблонов, с помощью которых рабочая память структурировала данные. Универсальные шаблоны неспособны охватить нюансы конкретных типов вопросов и сценариев, что приводило к потере существенной части релевантной информации. Отсюда и вытекает необходимость перехода к более кастомизированным решениям, лучше соответствующим потребностям конкретного приложения.

Как Mastra вывела RAG на новый уровень Retrieval-Augmented Generation представляет собой методологию, где внешний источник данных предоставляется моделью во время генерации ответа, повышая как релевантность, так и объем информации, доступной для анализа. Mastra акцентировала внимание на правильной организации и форматировании подаваемых на вход данных. Одна из важных их находок – временные метки сообщений, игнорирование которых до этого снижало точность временного рассуждения в системах. Исправление временных штампов, а также добавление актуальной даты вопроса в системное приглашение позволило заметно улучшить результаты в категориях, связанных с временным контекстом. Кроме того, тщательное переосмысление формата представления сообщений – группировка по году, месяцу, дню, с добавлением временных меток и пометок о принадлежности к текущему или предыдущему диалогу – позволило LLM лучше ориентироваться в хронологии событий и эффективно обрабатывать релевантные данные.

Важным шагом стала гибкая настройка параметра topK – количества наиболее релевантных сообщений, извлекаемых из векторной базы, для передачи модели. При увеличении topK с 2 до 20 наблюдался существенный рост общей точности системы от 63% до 80%. Это демонстрирует, что расширенный круг контекстных данных практически напрямую влияет на точность ответа модели. Отдельного внимания заслуживают усовершенствования, связанные с обновлением рабочей памяти. Ранее она полностью перезаписывалась при каждом добавлении нового факта, что негативно сказывалось на последовательности и логической связности.

Разработка нового API, позволяющего делать точечные обновления с контекстным объяснением изменений, повысила точность до 72% при комбинировании с семантическим поиском. Тем не менее, Mastra пришли к выводу, что рабочая память больше подходит для краткосрочного контекста, персонализации и управления поведением агентов, чем для решения задач долговременной памяти. Стоимость и технические аспекты Проведение таких масштабных тестирований связанно с высокими затратами – Mastra потратила около 8000 долларов и обработала порядка 3.8 миллиардов токенов при нескольких итерациях тестов и отладки. Но это инвестиция в точность и стабильность, которая позволяет создавать надежные и эффективные решения для многих отраслей, от поддержки клиентов до интеллектуальных помощников.

Одна из цельных задач компании – дальнейшее снижение стоимости таких benchmark-запросов без потери качества. Оптимизация становится выгодной не только для команды разработчиков, но и для конечных пользователей, так как позволяет снизить стоимость использования и сделать систему более доступной. Будущее технологий долговременной памяти с RAG Mastra не останавливается на достигнутом. В планах – развитие таких функций, как ограничение максимально передаваемых токенов, внедрение более сложных архитектур GraphRAG, а также интеграция новых типов памяти, включая эпизодическую и архивную. Также активно рассматриваются варианты автоматического суммирования бесед для дальнейшего повышения качества и эффективности системы.

Интересно, что компания открыто делится частью опыта и исходным кодом для настройки бенчмарка LongMemEval, что поможет широкой AI-сообществу быстрее адаптировать и усовершенствовать свои технологии. Будущее за системами памяти, способными не просто хранить, а динамично оперировать и реконструировать информацию на основе множества диалогов с пользовательской логикой. Выводы Опыт Mastra убедительно доказывает, что подход Retrieval-Augmented Generation остается востребованным и эффективным для построения долгосрочной памяти AI-агентов. Вопреки мнению некоторых конкурентов, правильная интеграция и оптимизация RAG позволяет не только сохранять релевантность со временем, но и значительно превосходит по точности традиционные методы. Ключ к успеху кроется в тщательном анализе типов вопросов, гибком управлении обновлениями памяти и умелом использовании дополнительного контекста.

Наличие детализированных временных меток и соответствующего форматирования данных помогает моделям лучше ориентироваться в больших объемах информации и делать качественные выводы. Для разработчиков AI-агентов и систем поддержки пользователей это важнейший ориентир. Инвестиции в собственные бенчмарки, постоянное отслеживание качества и использование передовых методик поиска и генерации информации позволят создавать умные, запоминающие и эволюционирующие решения, соответствующие высоким требованиям и ожиданиям пользователей.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Ask HN: Local Speech Transcription SwiftUI?
Понедельник, 27 Октябрь 2025 Локальная транскрипция речи в SwiftUI: эффективные решения и практические рекомендации

Погружение в возможности и методы локальной транскрипции речи с использованием SwiftUI, включая обзор популярных инструментов и советы по улучшению качества распознавания на устройствах Apple.

Lizard: An Efficient Linearization Framework for Large Language Models
Понедельник, 27 Октябрь 2025 Lizard: Эффективный Фреймворк Линеаризации для Больших Языковых М моделей

Обзор инновационной технологии Lizard, которая решает проблему вычислительных ограничений в больших языковых моделях, значительно ускоряя обработку и снижая требования к памяти при сохранении качества моделей.

Ask HN: What Pocket alternatives did you move in to?
Понедельник, 27 Октябрь 2025 Лучшие альтернативы Pocket после его закрытия: опыт пользователей и перспективы развития

Оценка популярных сервисов для сохранения и чтения статей в офлайн-режиме, а также обзор самостоятельных и облачных решений, которые выбирают пользователи после закрытия Pocket.

How Go 1.24 Swiss Tables saved us hundreds of gigabytes
Понедельник, 27 Октябрь 2025 Как Go 1.24 и Swiss Tables помогли сэкономить сотни гигабайт памяти

Погружение в инновации Go 1. 24 с внедрением Swiss Tables и переосмыслением подхода к хеш-таблицам, которые привели к значительной оптимизации использования памяти и сократили нагрузку на серверы в крупных высоконагруженных системах.

Top AI Companies Have 'Unacceptable' Risk Management, Studies Say
Понедельник, 27 Октябрь 2025 Крупнейшие компании в сфере ИИ демонстрируют неприемлемые стандарты управления рисками, показывают исследования

Раскрытие проблем управления рисками в ведущих компаниях по разработке искусственного интеллекта и анализ степени готовности индустрии к безопасному развитию технологий будущего.

Exclusive: Crypto infrastructure giant Talos acquires Coin Metrics for more than $100 million
Понедельник, 27 Октябрь 2025 Talos усиливает позиции в криптоиндустрии: приобретение Coin Metrics более чем за $100 млн

Криптоинфраструктурная компания Talos совершила важный шаг в своем развитии, приобретя блокчейн-аналитика Coin Metrics за сумму свыше 100 миллионов долларов. Это приобретение открывает новые горизонты для Talos, которая стремится создать универсальное решение для институциональных инвесторов в цифровых активах.

Bark receives second noncompliance warning from NYSE in less than 2 years
Понедельник, 27 Октябрь 2025 Компания Bark вновь получила предупреждение от NYSE о несоответствии требованиям листинга

Онлайн-компания Bark столкнулась с новым вызовом на биржевом рынке, получив второе предупреждение от Нью-Йоркской фондовой биржи (NYSE) за менее чем два года из-за падения цены акций ниже установленного порога. Разбираемся в причинах, последствиях и дальнейших шагах компании в условиях финансовых трудностей и рыночных изменений.