Виртуальная реальность Институциональное принятие

Могут ли большие языковые модели рассуждать логически и как их этому обучить? Современный взгляд 2024 года

Виртуальная реальность Институциональное принятие
Can LLMs reason logically? If not, how can we teach them? (2024)

Обзор возможностей больших языковых моделей в области логического мышления, анализ текущих проблем и перспективы их обучения логическому выводу с помощью синтетических корпусов данных и формальной логики.

В последние годы большие языковые модели (LLM), такие как GPT-4, продемонстрировали впечатляющие способности решения разнообразных задач, что приближает нас к созданию искусственного интеллекта, способного мыслить подобно человеку. Однако ключевым вопросом остается то, умеют ли эти модели действительно рассуждать логически, или они лишь имитируют данный навык, используя заученные шаблоны и накопленные ранее знания. Этот вопрос приобретает особую актуальность в 2024 году, когда исследователи тщательно изучают границы возможностей современных ИИ-систем и пытаются вывести их на новый уровень качества понимания и построения логических выводов. Логика и рассуждение давно считаются основополагающими компонентами интеллектуальной деятельности. Знания представляют собой набор фактов о мире, например, тот факт, что все объекты с массой создают гравитационное поле, а Земля обладает массой.

Рассуждение же — это процесс, во время которого из совокупности известных фактов с помощью логических правил выводится новая информация. Классический пример — применение правила уточнения: если известно, что для всех объектов, обладающих массой, действует определённое свойство, и Земля является таким объектом, то по логике можно сделать вывод, что и Земля тоже обладает этим свойством. Исследования последних лет показывают, что современные LLM часто решают задачи скорее через аналогию и воспоминание ранее встреченного текста, чем через чистую логику. К примеру, наблюдения за тем, как модели справляются с программированием, количественными вычислениями или математическими задачами, указывают, что они успешно оперируют с наборами данных, на которых были тренированы, но испытывают трудности при появлении новых, неизвестных комбинаций. Если модель не может рассуждать логически, а лишь повторяет ранее усвоенную информацию, возникает серьезное ограничение для создания универсального ИИ, который сможет решать задачи, ранее не встречавшиеся людям.

Для преодоления этого барьера исследователи разработали новые методы обучения LLM именно логическому мышлению. Одним из таких подходов является создание синтетических корпусов с примерами формальных логических выводов. В 2023 году разработчики из Hitachi представили инновационную методику, получившую название FLD (Formal Logic Deduction). Этот метод позволяет генерировать разнообразные примеры дедуктивных рассуждений, опираясь на теорию формальной логики и набор базовых аксиом. В рамках FLD создаются так называемые «деревья доказательств», в которых каждый шаг обоснован конкретным логическим правилом.

Факты и гипотезы, заданные в этих примерах, являются случайными символьными конструкциями без реального смыслового наполнения, что исключает возможность опоры на уже известные знания. Такие задачи проверяют именно способность модели строить цепочки логических выводов, а не просто узнавать знакомые паттерны. Исследования показывают, что даже передовые модели вроде GPT-4 решают лишь около половины задач такого рода, что свидетельствует о существенных сложностях с истинным логическим мышлением. Однако трактовка результатов не безнадёжна. Маленькая языковая модель T5, дообученная на этих синтетических данных, смогла обойти GPT-4 по точности решения задач, что подтверждает эффективность специализированного обучения.

Важно отметить, что FLD не ограничивается набором простейших правил, таких как modus ponens — наиболее базовое правило вывода. Использование аксиоматического подхода позволяет формировать огромный спектр логических построений различной сложности, включая множественные уровни вложенности доказательств. Это создает максимально широкий фундамент для того, чтобы модели учились работать с абстрактными структурами рассуждений и не ограничивались простой подстановкой шаблонов. Экспериментальные результаты также демонстрируют, что модель, обученная на корпусе FLD, обладает наилучшей обобщающей способностью по сравнению с другими специализированными корпусами. Это связано с тем, что FLD опирается на фундаментальные аксиомы и теоретические построения формальной логики, которые универсальны для всех допустимых правил вывода.

Таким образом, обучение на FLD предоставляет модели прочную базу для понимания и применения новых, ранее невидимых правил. Несмотря на очевидные успехи, пути развития остаются открытыми. Вопросы масштабируемости, интеграции логического мышления с обычными языковыми навыками и способность применять полученные логические умения в реальных прикладных задачах пока что остаются предметом активных экспериментов и дискуссий. Например, предстоит выяснить, насколько обучение на формальных синтетических данных будет полезным для решения сложных проблем в естественном языке, где неоднозначность и контекст играют огромную роль. Важно понимать, что задача обучения машин рассуждению — не просто тренировка на новых данных, а формирование у них когнитивных навыков, которые позволят идти дальше пассивного запоминания и стать инструментом создания нового знания.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Discord co-founder and CEO Jason Citron is stepping down
Четверг, 08 Май 2025 Основатель Discord Джейсон Ситрон уходит с поста генерального директора: что ждать от компании в новом этапе развития

Подробный анализ смены руководства в Discord — уход сооснователя и CEO Джейсона Ситрона, назначение нового лидера и перспективы дальнейшего роста компании на фоне подготовки к IPO.

Quick Machine Recovery in Windows 11
Четверг, 08 Май 2025 Быстрое восстановление системы в Windows 11: инновационные возможности и практические советы

Подробное руководство по использованию функции Quick Machine Recovery в Windows 11 для эффективного устранения проблем с загрузкой и повышению надёжности работы устройства.

Azimuth – A metroidvania FOSS game with vector graphics ported for the web
Четверг, 08 Май 2025 Azimuth: уникальная Metroidvania с векторной графикой и открытым исходным кодом, теперь доступна в браузере

Обзор Azimuth – инновационной игры в жанре Metroidvania с открытым исходным кодом и векторной графикой, адаптированной для веб-платформ. В статье рассказывается о особенностях геймплея, технических решениях и преимуществах FOSS-проекта, а также о том, как игра меняет представление о браузерных играх.

Malicious NPM Package Impersonating Popular Express Cookie Parser
Четверг, 08 Май 2025 Опасная NPM-библиотека, маскирующаяся под популярный Express cookie-parser: подробный разбор вредоносной кампании

Подробный анализ недавно выявленного вредоносного npm-пакета, имитирующего популярный Express cookie-parser. Понимание механизмов заражения и рекомендаций по защите от этой угрозы.

Cloth
Четверг, 08 Май 2025 Ткань: искусство создания и разнообразие применения

Подробное исследование истории, видов и применения тканей в современном мире, раскрывающее значимость материала в повседневной жизни и индустрии моды.

 Bitcoin ETFs on $3B ‘bender,’ notch first full inflow week in 5 weeks
Четверг, 08 Май 2025 Биткоин ETF на подъёме: $3 миллиарда притока и первая полная неделя с положительным балансом за пять недель

Обзор текущей ситуации на рынке биткоин-ETF в США, анализ причин значительного притока инвестиций и прогнозы экспертов на фоне макроэкономической неопределённости и растущего интереса институциональных инвесторов к криптовалютам.

UK consumer confidence dips to lowest level since 2023 amid tariff concerns
Четверг, 08 Май 2025 Падение потребительской уверенности в Великобритании: влияние тарифной политики и экономические перспективы

Анализ текущего состояния потребительской уверенности в Великобритании на фоне внешнеторговых тарифов и внутренних экономических вызовов. Разбор факторов, влияющих на настроение британских потребителей и прогнозы на ближайшее будущее.