Майнинг и стейкинг Стейблкоины

Обучение модели Query Fan-Out: революция в поисковых запросах и их реформулировании

Майнинг и стейкинг Стейблкоины
Training a Query Fan-Out Model

Раскрытие особенностей обучения модели Query Fan-Out – инновационного подхода Google к генерации качественных реформулировок запросов без привлечения человека. Обзор алгоритмов, применение скрытого пространства значений и влияние псевдообратной связи на эффективность поиска.

В современную эпоху цифровой информации эффективный поиск становится всё более важным аспектом пользовательского опыта и бизнес-стратегий. Сложность языковых запросов и неоднозначность формулировок затрудняют выявление уместных результатов. Для устранения этих барьеров Google представил инновационный подход, известный как модель Query Fan-Out, способную создавать десятки, а то и сотни качественных вариантов одного запроса, существенно улучшая тем самым результаты поиска. Основная инновация модели заключается в использовании математического пространства скрытых значений (латентного пространства) для генерации реформулировок без необходимости человеческого вмешательства, что открывает новые горизонты для автоматизации и качества поиска. Принцип работы модели строится на переходе между исходным запросом и целевым документом в скрытом пространстве вектора, где запрос и документ представлены числовыми эмбеддингами.

Сам процесс можно представить как путешествие от отправной точки – исходного запроса – по направлению к выявленному документу, шаг за шагом с промежуточными остановками. Каждый из таких шагов декодируется с помощью специально обученной модели, преобразующей векторные представления обратно в текст запросов. Такое перемещение позволяет получить сотни потенциальных вариантов, при этом сохраняется смысловая близость к целевому документу. Демонстративным примером служит процесс от запроса «среднегодовая доходность фондового рынка» до предложения формулировки «каков средний годовой доход у биржи S&P», где по мере продвижения по латентному пространству качество и релевантность запросов заметно улучшается. Чтобы построить этот механизм, Google сначала создал декодер запросов, основанный на архитектуре T5.

Его обучение заключалось в том, чтобы эффективно инвертировать работу поискового кодировщика GTR, восстанавливая из эмбеддинга максимально близкий по смыслу исходный запрос. Результатом стала модель, способная с точностью до 96% по косинусному сходству воспроизводить запросы. После чего основной задачей было генерировать новое обучающее множество данных. С этой целью использовали пары запрос-документ из базы MSMarco. Для каждого такого набора формировалась последовательность из 20 шагов по простейшему векторному пути от запроса к документу; каждый промежуточный эмбеддинг декодировался в текст и оценивался по релевантности с помощью классических метрик, таких как nDCG.

Успешные варианты включались в обучающий набор. Этот процесс позволил получить более 860 тысяч примеров для обучения специализированной модели для подсказок запросов, названной qsT5. Помимо варианта модели, где на вход подавался исключительно исходный запрос, была также обучена версия, учитывающая псевдообратную связь – топ-5 найденных результатов, что значительно усиливало способность модели понимать запрос в контексте. Объяснение эффективности такой модели кроется в особенностях геометрии значений. Современные нейросетевые ретриверы помещают запросы и документы в унифицированное векторное пространство, где семантическая близость соответствует геометрической, иначе говоря, расположению точек в пространстве.

Если релевантные документы группируются в определённой области, то перемещение по вектору в сторону такой кластеризации помогает искать лучшие варианты запросов с максимальной релевантностью. Три фундаментальные идеи лежат в основе модели: скрытое пространство структурировано, промежуточные точки на пути несут смысловую нагрузку, и декодер способен достоверно восстанавливать осмысленные текстовые варианты из этих точек. Интересно, что итоговая модель qsT5 уже не нуждается в прямой работе с векторами и арифметикой над ними. Она научилась усваивать и воспроизводить паттерны движения по пространству запросов на уровне генерации текста. При входе, например, запроса «python циклы» и рейтинговых результатов, модель не вычисляет различные векторные операции, а генерирует подходящие формулировки, опираясь на внутренние знания и выученные структуры.

Тем самым достигается компрессия миллионов примеров в один компактный языковой генератор. В практической работе система строится следующим образом: пользователь вводит запрос, по которому выполняется начальный поиск, далее на основе результатов и самого запроса входные данные подаются в модель qsT5, которая порождает набор разнообразных вариантов. Их параллельная обработка позволяет получить более полный охват релевантного контента. Эффективность данного подхода подчёркивается значительными улучшениями в метриках качества: на базе данных MSMarco nDCG@10 вырос с 0.420 до 0.

554, а на Natural Questions с 0.495 до 0.637. Помимо повышения точности, модель генерирует свыше десяти разнообразных и релевантных вариантов для каждого исходного запроса, что особенно важно в условиях многозначности и размытых формулировок. Важную роль в повышении качества играет использование псевдообратной связи.

Когда модель имеет доступ к первичным результатам пользователя, она способна уточнять намерения, выявлять отраслевые термины и лучше ориентироваться в том контенте, который представлено в корпусе. Этот элемент помогает разрешать неоднозначность слов, например, различать «python» как язык программирования и как змею, а также подбирать корректное терминологическое оформление. Подход с Query Fan-Out не только улучшает поиск, но и открывает пути для новых архитектур: здесь отсутствует необходимость создания правил вручную, система самостоятельно обучается и совершенствуется, а прозрачность её работы обеспечивается через анализ и инспекцию декодера запросов. Благодаря тому, что алгоритм оперирует эмбеддингами, а не напрямую словами, метод универсален и применим к разным языкам и даже мультимодальным задачам. Потенциал данной технологии не ограничивается только поисковыми системами.

Представление запросов как точек в латентном пространстве и движение по ним открывает возможности для адаптивного поиска на основе поведения пользователя, интеграции кросс-модальных данных (например, переход от текста к изображениям) и объяснимых подсказок на основе семантических направлений. Отдельным достоинством можно назвать то, что искусственный интеллект выступает в роли проводника, который ведёт пользователя от неопределённого запроса к осмысленному набору ключевых слов на пути к контекстно релевантной информации. В итоге обучение модели Query Fan-Out переводит традиционный поисковый процесс на качественно новый уровень, где генерация и переработка запросов становятся динамичными, интеллектуальными и максимально точными. Будущее поиска связано с подобными системами, способными непрерывно обучаться, автоматически расширять охват запросов и повышать удовлетворенность пользователей через глубокое понимание и оптимизацию смысловых путешествий по информационному пространству.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Broadcasts in Reliable Ad-Hoc Networks
Пятница, 19 Сентябрь 2025 Надежные трансляции в ад-хок сетях: эффективные алгоритмы и современные вызовы

Подробное исследование методов распространения сообщений в надежных ад-хок сетях, особенностей различных моделей взаимодействия и анализа возможностей и ограничений современных алгоритмов для динамических и статических сетей.

Airswift Technology and Cloud Payments Partner to Enable Instant Access to Crypto with VISA and MasterCard
Пятница, 19 Сентябрь 2025 Инновационное партнерство Airswift и Cloud Payments: мгновенный доступ к криптовалюте через VISA и MasterCard

Партнерство компаний Airswift Technology и Cloud Payments открывает новые горизонты для пользователей криптовалют, позволяя мгновенно использовать средства через привычные платежные системы VISA и MasterCard. Это важный шаг в интеграции Web3.

Public Punching Bag
Пятница, 19 Сентябрь 2025 Публичный боксерский мешок: инновационный способ снятия стресса и тренировки силы

Обзор преимуществ и особенностей публичных боксерских мешков как эффективного инструмента для снятия стресса, улучшения физической формы и управления эмоциями в городских условиях.

ChatGPT's Quiet Shift in User Data Retention and Missed Opportunity for OpenAI
Пятница, 19 Сентябрь 2025 Незаметное изменение политики хранения данных ChatGPT и упущенная возможность укрепить доверие пользователей OpenAI

Изменения в политике хранения пользовательских данных ChatGPT вызвали обеспокоенность относительно конфиденциальности и прозрачности. Рассматриваем, как новые условия влияют на пользователей и почему OpenAI могло бы улучшить доверие через более открытое информирование.

Ask HN: Is there any point to re-skilling on ds/ algo as a sr.engineer?
Пятница, 19 Сентябрь 2025 Стоит ли повторно изучать структуры данных и алгоритмы старшему инженеру?

Размышления о необходимости обновления знаний по структурам данных и алгоритмам для опытных инженеров, анализ современного рынка труда и советы для успешного прохождения собеседований в технологической отрасли.

Anthropic wins a major fair use victory for AI
Пятница, 19 Сентябрь 2025 Anthropic одерживает значимую победу в деле о добросовестном использовании ИИ и авторских правах

Решение суда в деле Anthropic стало важным прецедентом для индустрии искусственного интеллекта, определившим правомерность использования легально приобретённых книг для обучения моделей. Оно повлияло на развитие законодательства в области авторского права и технологий ИИ, а также открыло новые перспективы для исследователей и разработчиков искусственного интеллекта.

Top Stock Movers Now: Carnival, Uber, Mastercard, and More
Пятница, 19 Сентябрь 2025 Крупные игроки фондового рынка: Carnival, Uber, Mastercard и другие лидеры роста

Обзор ключевых факторов движения акций ведущих компаний на фондовом рынке с анализом влияния геополитики, технологических инноваций и изменений в экономике на стоимость ценных бумаг.