В современном мире развитие искусственного интеллекта и, в частности, больших языковых моделей (Large Language Models, LLMs), вызвало множество вопросов о том, как такие системы учатся читать и писать. Один из самых интересных вопросов заключается в том, почему человек, обладающий ограниченным количеством книг и текстов в течение жизни, способен научиться читать и писать эффективно, тогда как ИИ требует тысяч, а то и миллионов текстов для достижения сопоставимых навыков. Почему человеческое обучение столь экономично по количеству данных, а машины кажутся жадными до информации? Для поиска ответа на этот вопрос важно рассмотреть природные особенности человеческого мозга, процесс обучения и архитектуру машинного интеллекта. Человеческий мозг — сложнейший орган, обладающий выдающейся способностью к обобщению и абстрагированию. Ребёнок получает язык не только с помощью чтения и письма, но и через многолетнее взаимодействие с родителями, окружающими людьми и миром.
Ещё до того, как малыши впервые прочитают книгу, они слышат устную речь, осваивают интонации и ритмы, запоминают контексты и связывают слова с конкретными объектами и действиями. Это богатое мультисенсорное обучение обеспечивает глубокое понимание языка как системы знаков и инструментов общения. Это значит, что когда человек начинает знакомиться с письменным языком, он уже обладает обширным «предобучением», основанным на опыте восприятия звуков, эмоций и ситуаций. Благодаря этим внутренним моделям мозг быстро распознаёт и интерпретирует знаки, что существенно уменьшает объём информации, требуемый для овладения чтением и письмом. Большие языковые модели, напротив, «рождаются» с нуля, не обладая базовым пониманием мира или языка.
Они обучаются исключительно на основе текста, не имея возможности воспринимать и осмысливать медиальные данные или эмпирический опыт. В этом заключается первая причина, почему для обучения им нужно гораздо больше данных — они не имеют контекстуальных ассоциаций и «жизненной базы», которой наделён человек. Вторая важная деталь — природа обучения ИИ. Большинство современных LLM построены на трансформерах, которые учатся предсказывать следующие слова на основе предыдущих. Это статистический подход, основанный на распознавании шаблонов и вероятностей появления слов в контексте.
Процесс требует огромного количества текстовой информации для выстраивания сложных моделей вероятностей и взаимосвязей. В отличие от человека, который опирается на внутренние когнитивные модели и лингвистические знания, машина накапливает эти связи исключительно на основе анализа данных. Это сродни тому, как если бы человек попытался составить словарь без знания значений слов и подстановок, просто регистрируя статистические совпадения. Третий аспект связан с природой восприятия и интеграции сенсорной информации у людей. Мозг связывает визуальную, аудиовосприятие и эмоциональные реакции, что обогащает понимание языка и позволяет детям учиться быстрее и эффективнее.
Машины же пока не обладают такой мультисенсорной интеграцией в полном объёме. Хотя исследования ведутся в направлении мультимодальных моделей, которые объединяют текст, аудио и визуальную информацию, эти технологии пока далеки от полноценных аналогов человеческого восприятия. Ещё один значимый момент — генетическое наследие человека. В структуре нашего мозга заложена способность к языковому мышлению и обучению. Эволюция на протяжении миллионов лет выработала специализированные области, отвечающие за речь, понимание и приобретение знаний.
Эти биологические механизмы повышают эффективность обучения и снижают зависимость от количества информации. Искусственные модели пока что лишены такого встроенного априорного знания и вынуждены на этапе обучения все выстраивать с нуля, что затратно по вычислительным ресурсам и требует огромных объёмов данных. Кроме того, обучение человека сопровождается постоянной обратной связью от окружающих и социальной среды. Ошибки в письменных и устных высказываниях корректируются, конфирмируются и усваиваются в живом общении. Машины же обучаются по заранее заготовленным корпусам, и процессы корректировки и дообучения зачастую требуют дополнительного программного вмешательства и значительных вычислительных мощностей.
И наконец, человеческий мозг чрезвычайно эффективен в узнавании и обобщении. Даже при наличии ограниченного количества информации он способен выстраивать сложные семантические и синтаксические связи, применять их в новых ситуациях и создавать уникальные конструкции. Искусственный интеллект же пока что лишён творческой интуиции и часто воспроизводит шаблоны, основанные на статистике, что повышает его зависимость от объёмов исходных данных. Таким образом, ключ к пониманию, почему человеку достаточно ограниченного числа книг для обучения чтению и письму, а LLM требуют гигантских массивов текста, заключается в уникальных когнитивных способностях, эволюционной предрасположенности, богатом жизненном опыте и мультисенсорности человеческого мозга, а также в принципиальных различиях алгоритмических подходов к обучению. Мы можем сказать, что человек учится в контексте жизни и понимания мира, а искусственный интеллект — в рамках строго ограниченной текстовой информации.
Несмотря на прогресс в области машинного обучения и ИИ, этих фундаментальных различий пока не удалось преодолеть полностью. Это объясняет, почему для достижения ярких результатов машине требуется невероятное количество данных и ресурсов, в то время как человеческое обучение по природе своей требует сравнительно небольшого, но качественного набора информации и опыта.