DeFi Стартапы и венчурный капитал

Как повысить точность больших языковых моделей, используя все их слои

DeFi Стартапы и венчурный капитал
Making LLMs more accurate by using all of their layers

Улучшение точности больших языковых моделей (LLM) возможно благодаря инновационным методам, которые задействуют все слои модели при генерации текста. Такой подход значительно снижает количество ошибок и искажений, делая ответы моделей более достоверными и приближенными к реальной информации.

Большие языковые модели (LLM) уже давно становятся неотъемлемой частью современного цифрового мира. Они используются в поисковых системах, чат-ботах, системах перевода и многих других сферах. Несмотря на впечатляющие успехи, многие LLM сталкиваются с проблемой так называемых галлюцинаций - ситуацию, когда модель уверенно выдаёт ложную либо недостоверную информацию. Эта проблема в значительной мере подрывает доверие к ИИ и ограничивает возможности его широкого применения, особенно в критически важных областях, таких как медицина, юриспруденция и образование. Однако новые исследования предлагают эффективное решение, позволяющее повысить точность и надёжность LLM без привлечения внешних баз данных или дополнительного обучения моделей.

Говорится о подходе, при котором используется информация не только из последнего слоя модели, но и из всех промежуточных слоёв - метод, известный как Self Logits Evolution Decoding (SLED). Большие языковые модели устроены по принципу трансформеров и состоят из многих слоёв, которые последовательно обрабатывают ввод. Каждый слой генерирует числовые значения, называемые логитами, которые в конечном итоге позволяют модели выбрать следующий токен (слово или часть слова) для формирования ответа. Обычно при создании текста учитывается только логит последнего слоя, а все предыдущие промежуточные данные игнорируются. Но именно здесь часто таится корень ошибок и некорректных ответов.

Задействование же всех слоёв даёт несколько мнений модели на каждый шаг генерации, что позволяет выявлять потенциальные ошибки и более точно интерпретировать контекст. Новая техника SLED заключается в том, что логиты каждого слоя преобразуются с помощью того же финального проекционного слоя, что и последний слой. Это приводит к получению вероятностных распределений токенов для каждого слоя, из которых затем формируется усреднённое и взвешенное по важности распределение. Такое объединение информации разных этапов работы модели позволяет скорректировать слишком уверенные и ошибочные предсказания, опираясь на более глубокий контекст и внутренние представления, которые предыдущие слои уже сформировали. Практический пример помогает лучше понять преимущества SLED.

 

Рассмотрим задачу из области математики - вычисление стоимости покупки с условием скидки. Традиционная модель может предсказать простую арифметическую операцию, не учитывая скидку, потому что на основании статистики из обучающих данных это более распространённый сценарий. Но промежуточные слои, анализируя информацию глубже, могут "заподозрить" необходимость дополнительного действия. Объединяя их мнения, SLED позволяет LLM сгенерировать правильное решение, включающее применение скидки, и тем самым дает корректный результат. Этот подход успешно протестирован на нескольких языковых моделях, включая GPT-OSS, Mistral и Gemma, а также показал универсальность при работе как с базовыми, так и дообученными моделями.

 

На различных тестовых наборах данных, включая задачи с выбором из множества вариантов и открытые вопросы, SLED продемонстрировал значительное повышение точности, вплоть до 16 процентов по сравнению с традиционными методами декодирования и другими техниками улучшения достоверности, например DoLa. Одной из важных особенностей SLED является отсутствие необходимости привлечения дополнительных внешних знаний или дообучения модели. Это значительно упрощает внедрение метода в существующие системы, экономит ресурсы и сохраняет масштабируемость решений. Единственным незначительным минусом является незначительное увеличение времени генерации текста - примерно на 4 процента, что в реальных условиях почти незаметно для пользователя, учитывая ценность улучшенной качества ответов. Помимо повышения фактической точности, метод SLED также совместим с другими техниками декодирования, что делает его гибким инструментом для комплексного решения проблемы галлюцинаций.

 

Его можно комбинировать с уже существующими алгоритмами, что усиливает защиту от появления неправдоподобной информации и повышает общую надёжность LLM. Перспективы развития этой технологии очень широки. В ближайшем будущем возможно интегрирование SLED с методами контролируемого обучения и адаптации моделей под специфические задачи и домены. Также интересны направления, связанные с расширением применения принципов мультислойного декодирования на другие типы данных и задач, включая визуальные вопросы, генерацию программного кода и создание длинных текстов. Таким образом, инновационный подход, основанный на использовании логитов всех слоёв языка, открывает новые горизонты для повышения качества и достоверности ответов больших языковых моделей без необходимости усложнять архитектуры и увеличивать требования к аппаратному обеспечению.

Это важный шаг к более интеллектуальным, надежным и доверительным системам искусственного интеллекта, которые смогут эффективно помогать людям в разнообразных сферах жизни и бизнеса. .

Автоматическая торговля на криптовалютных биржах

Далее
The Falling Man," 20 Years Later
Четверг, 15 Январь 2026 Падающий человек" спустя 20 лет: история, ставшая символом траура и человеческой судьбы

Размышления о фотографии "Падающий человек", сделанной в день террористической атаки 11 сентября 2001 года, ее значении и влиянии на восприятие трагедии спустя два десятилетия. .

Is In-Context Learning Learning?
Четверг, 15 Январь 2026 Является ли обучение в контексте настоящим обучением? Взгляд на инновации в искусственном интеллекте

Обсуждение феномена обучения в контексте (In-Context Learning) и его значимости для развития современных моделей искусственного интеллекта. Анализируется, можно ли считать этот подход полноценным видом обучения, а также раскрываются его преимущества и ограничения в применении к разнообразным задачам.

UC Berkeley gives personal information for 150 students and staff to government
Четверг, 15 Январь 2026 UC Berkeley передала личные данные более 150 студентов и сотрудников федеральному правительству: подробности и последствия

Скандал вокруг передачи личных данных студентов и сотрудников UC Berkeley федеральному правительству вызвал волну обсуждений и опасений относительно конфиденциальности и прав граждан. Раскрыты подробности расследования, причины и возможные последствия для университета и затронутых лиц.

A QBasic Text Adventure Still Expanding in 2025
Четверг, 15 Январь 2026 QBasic Текстовые Приключения: Путешествие, Которое Продолжается в 2025 Году

Изучение удивительного мира текстовых приключений на языке QBasic в 2025 году и исследование причин их продолжающейся популярности и развития в современной игровой среде. .

 Colombians can soon save in stablecoins with new MoneyGram App
Четверг, 15 Январь 2026 Как новое приложение MoneyGram позволит колумбийцам сохранять капитал в стейблкоинах

В условиях нестабильности колумбийского песо новое приложение MoneyGram предлагает удобный способ хранения и перевода цифровых долларов, обеспечивая финансовую стабильность и новые возможности для населения Колумбии. .

BeastForum? | Zooville Forum
Четверг, 15 Январь 2026 BeastForum и Zooville Forum: как стать частью активного сообщества любителей виртуальных миров

Обзор возможностей и особенностей BeastForum и Zooville Forum - популярных платформ для общения и поддержки игроков виртуального мира ZooVille, а также советы по эффективному использованию форумов для улучшения игрового опыта и взаимодействия с сообществом. .

兽圈的各位大多活跃在哪些网站/APP呢w? - 知乎
Четверг, 15 Январь 2026 Где обитают участники сообщества 兽圈: популярные сайты и приложения

Обзор популярных платформ и приложений, на которых активны участники сообщества 兽圈, с анализом их особенностей и причин популярности. .