Латинская Америка активно вступает в новую эру технологий, формируя собственные системы искусственного интеллекта с учетом уникальных культурных и лингвистических особенностей региона. Проект LatamGPT, который развивается при поддержке 30 организаций из разных стран Латинской Америки и Карибского бассейна, стал ответом на возросшее недовольство пользователей ChatGPT из-за ограниченного понимания местных диалектов и культурных нюансов. LatamGPT задуман как открытый большой языковой модельный проект, который будет способен работать с огромным массивом данных, напрямую собранных в регионе. Уже сейчас известно, что объем данных составляет более 8 терабайт — примерно пятая часть объема, который использует ChatGPT 3.5.
Такой масштаб позволяет создавать глубокие и тонкие языковые модели, адаптированные именно под специфику Латинской Америки. Одним из ключевых отличий LatamGPT является акцент на многоязычии и включение коренных языков, таких как науатль, кечуа и мапудунгун, а также региональных диалектов, выращенных в разных частях Карибского бассейна и материка. Такой подход делает проект уникальным, ведь при обучении глобальных моделей, таких как GPT и LLaMA, зачастую используется основа на стандартном испанском языке, как в Испании, или английские тексты с последующим переводом. В результате этого возникающие ошибки и искажения значимы для местных пользователей. Главная цель LatamGPT — создавать искусственный интеллект, который будет действительно «говорить» на языке своих пользователей, учитывая конкретные социальные, культурные и экономические реалии Латинской Америки.
Создание такой модели требует исключительной синергии университетов, государственных агентств и частных компаний. С самого начала проект финансирует и поддерживает Национальный центр искусственного интеллекта Чили (CENIA), который был основан в 2021 году и взял на себя координацию усилий. Объем параметров, которыми располагает LatamGPT, обещает соперничество с крупными моделями: 50 миллиардов настроек, что соизмеримо с ChatGPT 3.5. Однако в вопросах общей компетенции по вопросам, нерелевантным Латинской Америке, LatamGPT отстает, что связано как с объемом ресурсов, так и с концентрацией на региональных данных.
Регион жители активно пользуются генеративными искусственными интеллектами. Например, в Бразилии количество пользователей ChatGPT занимает третье место в мире после США и Индии. Многие учителя, студенты и бизнесмены используют подобные инструменты для повышения эффективности работы — автоматического составления текстов, поддержки клиентов, помощи в обучении и даже судебных процессах. В Буэнос-Айресе суды применяют ChatGPT для первоначального черновика юридических решений. Тем не менее главный вызов остается в том, чтобы создать не просто локализованную версию искусственного интеллекта, а систему, которая представляет интересы и нужды различных социальных и этнических групп региона.
Особое внимание уделяется вовлечению в разработку автохтонных народов и мигрантов, которые долгое время были маргинализированы в технологическом пространстве. Несмотря на технологический энтузиазм, проект сталкивается с серьезными вызовами. Во-первых, экологический аспект: вычислительные центры требуют огромного количества энергии и ресурсов. В частности, для LatamGPT был избран университет в Тарапака на севере Чили, регионе, страдающем от многолетней засухи. Чтобы минимизировать нагрузку на окружающую среду, проект использует возобновляемые источники энергии, а также оптимизированные облачные технологии.
Второй сложностью является фрагментированное законодательство о защите персональных данных в Латинской Америке. В то время как такие страны, как Бразилия, обладают достаточно продвинутыми законами о конфиденциальности, в других государствах даже базового регулирования данных нет. Это порождает риски утечек, юридических претензий и негативного влияния на репутацию разработчиков. Сложности в области инфраструктуры и нехватка квалифицированных специалистов также добавляют трудностей, однако популярность проекта постепенно привлекает внимание IT-сообщества. LatamGPT может стать примером успешного объединения сил ученых, правительств и бизнеса.
Проект вдохновлен аналогичными инициативами в других регионах мира, где также разрабатываются собственные языковые модели, отражающие многообразие культур и языков. В Юго-Восточной Азии работает Sea-Lion, обслуживающая почти дюжину региональных языков, в Африке – UlizaLlama, способная функционировать на нескольких африканских языках, в Индии развивается BharatGPT с сотнями языков. LatamGPT — это не только технологический, но и социальный проект, который будет измерять успех не только точностью и скоростью, но и культурной представленностью, социальной значимостью и доступностью. Не менее важным аспектом является открытость платформы для общественности и научного сообщества, что создает предпосылки для инновационных приложений и дальнейшего развития. Несмотря на амбициозность, реализация идеи LatamGPT потребует, по оценкам участников, десятилетий упорной работы с внедрением обратной связи с разными группами населения, адаптацией моделей под реальные потребности, а также с соблюдением этических и правовых норм.
Этот проект демонстрирует, что Латинская Америка обладает необходимыми талантами и потенциалом для создания инновационных решений в области искусственного интеллекта. LatamGPT может стать эталоном того, как региональные особенности и локальный контекст учитываются при создании передовых цифровых технологий. В конечном итоге, LatamGPT не только расширит возможности пользователей Латинской Америки, но и внесет важный вклад в глобальную экосистему искусственного интеллекта, предоставляя инструмент, который лучше понимает культуру и язык миллионов людей.