Компания Poolside, основанная в Сан-Франциско в апреле 2023 года, поставила перед собой амбициозную цель — создание искусственного общего интеллекта (AGI). В то время как многие в индустрии сосредоточились на масштабировании языкового моделирования, команда Poolside уверена, что ключ к AGI лежит в более глубоком понимании и применении обучения с подкреплением (Reinforcement Learning, RL). Их подход подчеркивает важность не только увеличения мощности вычислений, но и использования RL для расширения возможностей моделей за счет получения нового опыта и более эффективного анализа накопленных знаний человечества. Основополагающим элементом стратегии Poolside является идея о том, что масштабирование вычислительных ресурсов остается критически важным для прогресса на пути к AGI. Однако команда признает, что успешное достижение настоящего искусственного интеллекта требует дополнительных измерений – способностей учиться через взаимодействие с окружающим миром и не просто повторять изученный текст, а глубоко понимать его смысл и причинно-следственные связи.
Мировая паутина является огромной библиотекой человеческих знаний, но представленная там информация — лишь конечный продукт размышлений и опыта людей, сжатых в язык. Это значит, что за каждым текстом стоят скрытые процессы мышления и воспринимаемые реальные данные, которые теряются при таком сжатии. Более того, объем высококачественного и сложного материала в интернете ограничен. Именно поэтому Poolside рассматривает данные интернета как «исчерпываемый ресурс», сравнимый с ископаемым топливом — они могут поддерживать возникновение интеллекта лишь до некоторого предела. Обучение с подкреплением выступает своего рода возобновляемым источником энергии в этом контексте.
Оно позволяет моделям получать свежие данные и опыт, развивая свои навыки через пробу и ошибку. Программирование было выбрано компанией в качестве первичной области для применения RL, так как разработка ПО требует комплексных знаний, продуманного планирования и глубочайших рассуждений. При этом все эксперименты могут выполняться в виртуальной среде, что облегчает масштабирование обучения. Poolside реализует миллионы среды программирования, основанных на огромных наборах открытого кода на различных языках, таких как Python, Rust, Java и Go. В каждой такой песочнице происходит полный цикл сборки и тестирования кода, что позволяет агентам учиться отлаживать, рефакторить и расширять программное обеспечение с автоматическим и прозрачным оцениванием результатов.
Компиляторы, линтеры и тестовые наборы предоставляют мгновенную обратную связь — модель сразу знает, когда ее действия правильны или ошибочны, и получает возможность непрерывно совершенствоваться. Постепенно к виртуальным средам добавятся агенты, функционирующие в реальных производственных условиях, включая серверы, системы непрерывной интеграции и автономные песочницы. Масштабирование количества таких агентов до миллионов увеличит объем и разнообразие взаимодействий, что приведет к значительному росту данных для обучения. Это ускорит цикл улучшений и позволит моделям быстрее достигать сверхчеловеческих способностей инженера-программиста. Однако объем данных не всегда соответствует их информативной плотности.
Например, академическая книга по физике может содержать тысячелетия знаний и месяцы авторских размышлений, сжатых в ограниченное количество страниц, тогда как автоматический синтетический след может содержать обширную, но избыточную запись каждого эксперимента и ветвления. Таким образом, значительная часть глубинных знаний остается скрытой. Poolside называет процесс извлечения этой сокрытой энергии из человеческих данных, не просто повторяющихся текстовых последовательностей, «ядерной энергией» в аналогии с энергетикой. Для достижения этого они делают ставку на расширенные методы обучения с подкреплением, позволяющие моделям пробовать различные внутренние гипотезы и альтернативные способы объяснения изучаемых материалов. Это способствует развитию способности к обобщению, когда модель за счет «мышления» учится глубже понимать и связывать информацию.
Компания также признает, что интеллект выходит за рамки только языковых данных. Визуальная информация, пространственное восприятие и физическое взаимодействие — все это важные компоненты общего интеллекта. Однако Poolside убеждена, что язык является самой плотной абстракцией, способной упаковывать и передавать богатую информацию о мире. Именно благодаря пониманию языка модели смогут легче переходить к освоению других форм восприятия, будь то обработка изображений, видеоданных или управление робототехникой. Естественный язык диктует структуру и сложность мышления через композиционность, синтаксис и логику дискурса.
Благодаря этим качествам способность обрабатывать языковые данные помогает моделям лучше справляться с задачами пространственного рассуждения и планирования сложных действий. Кроме того, наличие огромных текстовых корпусов в интернете делает обучение на языковых данных более эффективным и менее затратным по ресурсам, что важное преимущество перед более сложными мультимодальными задачами. Главная философия Poolside в области развития AGI заключается не в бессмысленном увеличении размеров нейросетей и объемов текстовых данных, а в целенаправленном «распаковывании» накопленных знаний человечества, непрерывном обучении агентов на основе их собственного опыта, а также стратегическом использовании вычислительных ресурсов для ускорения прогресса. Обучение с подкреплением выступает движущей силой, которая формирует многообразные пути обучения и гамму новых взаимодействий в реальном мире, создавая бесконечный источник данных. Одновременно оно заставляет модели глубже погружаться в уже изученные сложные данные, превращая гигафлопы вычислений в интеллектуальные поиски и генерацию гипотез.
Масштабирование усиливает этот процесс: все больше мощности и агентов обеспечивает более интенсивные эксперименты, более богатую обратную связь и более быстрое приближение к AGI. В Poolside работают над созданием двух взаимодополняющих «энергетических систем» искусственного интеллекта. Первая — «термоядерный реактор» — отвечает за извлечение скрытой энергии из уже существующих данных, превращая их в источники прогресса. Вторая — «ветряная турбина» — применяется для сбора и использования энергии от новых данных, получаемых в ходе исследования и обучения. Основная задача Poolside — максимально эффективно использовать эти богатые ресурсы для создания абстрактных и универсальных целей, а также сбора и анализа обширных данных об интеракциях.
Так они продолжают поддерживать замкнутый цикл обучения, который в конечном итоге способен привести к уровню рассуждений и понимания, превосходящему человеческий. Таким образом, Poolside формирует новую парадигму в развитии искусственного интеллекта, смещая акцент с пассивного потребления информации к активному обучению через взаимодействие и исследование. Их уникальный подход, основанный на синергии масштабируемого RL и глубокого языкового анализа, задает тон в поисках следующего прорыва в сфере AGI, обещая существенные инновации и расширение горизонтов в области искусственного интеллекта.