Большие языковые модели (LLM) стали одним из самых обсуждаемых достижений в сфере искусственного интеллекта. Их внедрение кардинально меняет подходы к обработке информации, автоматизации и взаимодействию человека с технологиями. Несмотря на распространённость обсуждений, восприятие и понимание таких систем часто разделяются, и возникает множество заблуждений. Рассмотрим три ключевых, но не связанных между собой мысли, которые помогут лучше разобраться в реальном положении дел при работе с LLM. Первое, о чем стоит задуматься — это само восприятие и интенсивность дискуссий вокруг искусственного интеллекта в обществе.
Темы ИИ часто поднимаются с религиозным пафосом, когда сторонники различных точек зрения порой игнорируют объективные данные, подменяя их эмоциями и догмами. Важно честно признать свой взгляд на ИИ, чтобы не создавать ложных ожиданий и неправильно интерпретировать возможности технологий. Ключевым моментом здесь является понимание того, что сегодня LLM активно используются в повседневной работе многими специалистами, включая программистов и исследователей. Они служат инструментами для написания кода, поиска информации и проверки собственных знаний. При этом масштаб их полезности ограничен объемом доступных тренировочных данных и методами обучения.
Это означает, что хотя LLM значимы и приносят реальную экономическую пользу, их влияние на кардинальное изменение рынков и технологий пока остается умеренным. Эксперты прогнозируют, что даже при максимальном доступе к данным и вычислительным ресурсам, их эффективность достигнет своего пика, оставаясь лишь на уровне улучшения существующих процессов, но не революционизируя их полностью. Далее, стоит посмотреть на влияние LLM с экономической точки зрения, особенно в контексте уже устоявшейся модели SaaS-компаний (software as a service — программное обеспечение как услуга). До появления LLM сфера SaaS была привлекателена для инвесторов благодаря низким затратам на единицу продукции и высокой маржинальности. Создание и распространение ПО требовало относительно небольших капиталовложений, а обслуживание клиентов и индивидуальная настройка были ограничены таким образом, чтобы удерживать затраты минимальными.
Появление LLM оказало заметное влияние на эту структуру. Теперь создание и интеграция ИИ-функций в продукты сопровождается не нулевыми, а нарастающими затратами, связанными с вычислительными ресурсами и использованием моделей. Например, масштабирование производительности напрямую зависит от увеличения мощности вычислений, что ведёт к линейному росту расходов. При этом улучшение качества продукта также пропорционально зависит от вложений в работу с моделями, что ставит новые вызовы перед разработчиками и бизнесом. В условиях высококонкурентного рынка это означает, что компании вынуждены инвестировать в LLM, чтобы не отставать от конкурентов, а маржинальность их продуктов становится ещё более чувствительной к изменению затрат.
Особенно значима такая трансформация для тех бизнесов, которые исторически были менее интересны венчурным инвесторам из-за высокой капиталоёмкости и долгого периода окупаемости. LLM помогают таким компаниям переосмыслить свою экономику — затраты на специалистов, оборудование и энергоресурсы начинают постепенно замещаться затратами на интеллектуальные технологии, позволяя повысить эффективность и снизить барьеры для роста. Это может привести к расширению круга стартапов и предприятий, привлекательных для инвестиций, хотя в целом объем доступного венчурного капитала может оставаться ограниченным из-за снижения доходности традиционных SaaS-проектов. Третья важная мысль связана с особенностями работы LLM на уровне конкретных задач и проблем, возникающих при их использовании. Внешне многие задачи, решаемые языковыми моделями, могут показаться сходными, но на самом деле они сильно отличаются по сложности и доступности обучающих данных.
Например, легко представить, что исправление ошибки в популярной библиотеке программного обеспечения является вполне доступной задачей для LLM. Эта ошибка и примеры ее решения документируются в огромном количестве на онлайн-платформах, и модели обладают обширной тренировочной базой, что позволяет им эффективно интерполировать и найти правильное решение. Однако если рассмотреть более узкую и сложную задачу, например, исправление ошибки в драйвере малоизвестного аппаратного устройства, едва ли LLM справятся с ней так же эффективно. Это связано с ограниченной доступностью обучающих данных и отсутствием примеров для обобщения. Аналогичная ситуация наблюдается и в сфере математики, где LLM успешно решают задачи школьного и даже университетского уровня, но сталкиваются с трудностями при решении задач международных олимпиад — задач, требующих творческого подхода и выхода за рамки известных шаблонов.
Такая неочевидная разница в эффективности объясняется тем, что современные языковые модели в основном отличаются восхитительной способностью к интерполяции — «заполнению пробелов» на основе имеющихся данных. Но при сдвиге за границы тренировочной выборки их продуктивность резко падает. Для пользователей и заказчиков технологий важно осознавать этот нюанс, чтобы не считать LLM универсальным решением, а использовать их там, где модели действительно обладают высокой степенью уверенности и проверенной компетенцией. Более того, развитие агентных систем — программ, которые используют LLM для последовательного решения сложных задач с несколькими этапами — сталкивается с проблемой расходимости результатов. Такие системы представляют собой сложные структуры из множества взаимосвязанных запросов и вызовов внешних инструментов, при этом небольшая ошибка на одном этапе может привести к каскаду неверных действий и итогов.
Пока не найден эффективный способ обеспечения стабильного контроля ошибок и обратной связи по ходу работы агента, эти технологии остаются экспериментальными и не способны работать автономно в длительных и многозадачных сценариях с гарантированной надежностью. Несмотря на это, потенциал больших языковых моделей и связанных с ними технологий огромен. Их влияние уже ощущается в программировании, образовании, исследовательской деятельности, здравоохранении и многих других сферах. Правильное понимание их возможностей и ограничений способствует эффективному использованию и развитию инноваций, которые смогут изменить не только конкретные бизнес-процессы, но и принципы взаимодействия человека с машинами в целом. Таким образом, три простые, но глубокие мысли о больших языковых моделях включают признание ограничений в их способностях, переосмысление бизнес-моделей под новые реалии с неизбежным ростом затрат, а также осознание сложности и неоднородности задач, которые LLM способны решать.
Именно осознание этих факторов поможет экспертам, предпринимателям и конечным пользователям максимально эффективно интегрировать искусственный интеллект в современную жизнь и рабочие процессы.