В мире искусственного интеллекта и обработки естественного языка данные играют решающую роль. Качество и разнообразие обучающих наборов данных напрямую влияют на эффективность моделей и их способность работать с разнообразными задачами. Hugging Face, ведущая компания в сфере открытых технологий для машинного обучения, недавно представила проект, который может изменить подход к созданию обучающих корпусов для языковых моделей - FinePDFs. Этот датасет построен полностью из PDF-документов и содержит впечатляющие 3 триллиона токенов, что делает его крупнейшим в своём роде. Уникальность FinePDFs состоит не только в объёме, но и в свойствах исходного материала.
В отличие от распространённых HTML-источников, таких как Common Crawl, PDF-файлы часто включают тексты высокого качества, ориентированные на конкретные области знаний - право, науку, технику, медицину. Такой контент может значительно обогатить обучающие корпуса, особенно когда речь идёт о профессиональной терминологии и сложных структурированных данных. Однако извлечение текста из PDF традиционно считалось сложной задачей. Формат PDF не предназначен для лёгкой обработки: встречаются как встроенные текстовые слои, так и отсканированные изображения, требующие применения оптического распознавания символов (OCR). Кроме того, различные варианты форматирования и вложение графики могут запутывать алгоритмы парсинга.
Решение Hugging Face предложило инновационный гибридный подход. Использование Docling для текстового извлечения в сочетании с GPU-ускоренным OCR-модулем RolmOCR позволило эффективно обрабатывать разноформатные документы в огромных объёмах. Важной частью обработки стала очистка данных от повторов, автоматическое определение языка и анонимизация персональных данных, обеспечивающая конфиденциальность. Обширный языковой охват FinePDFs впечатляет: 1733 языка и диалекта, при этом английский составляет более 1,1 триллиона токенов. Испанский, немецкий, французский, русский и японский внесли по 100 миллиардов токенов и более.
Многие менее распространённые языки также представлены материалом с объёмом свыше миллиона токенов. Это создаёт фундамент для развития многоязычных моделей и способствует сохранению и изучению языковых редкостей. Оценка качества FinePDFs проходила через тестирование моделей с параметрами в 1,67 миллиарда на различных поднаборах. Результаты показали, что FinePDFs оказывается на уровне современных HTML-датасетов, таких как SmolLM-3 Web. Более важным открытием стала синергия при объединении FinePDFs и подобных датасетов - совместное обучение усиливает производительность по разным бенчмаркам, подчёркивая комплементарную природу знаний из PDF-источников.
Сообщество сразу проявило интерес к методам оценки. Представитель Hugging Face обусловил, что ключевыми метриками являются вероятности правильного выбора на ряде тестов, что говорит о продуманном подходе к измерению реальных возможностей модели, а не простом свёрнутом балле. Дополнительно исследователи отметили потенциал FinePDFs для обучения моделей с длинным контекстом - PDF-документы часто значительно длиннее веб-страниц, предоставляя ценный материал для понимания и генерации больших по объёму текстов. Кроме того, релиз FinePDFs считается значимым шагом к открытости и прозрачности данных: Hugging Face не только поделились самим датасетом, но и полностью задокументировали весь конвейер обработки - от детекции OCR до механизмов дедупликации. Такой уровень открытости значительно упрощает воспроизводимость результатов и исследовательскую работу в сообществе.
FinePDFs доступен по лицензии Open Data Commons Attribution, что гарантирует свободное использование для научных исследований и коммерческих разработок. Датасет размещён на Hugging Face Hub и поддерживается рядом инструментов, включая стандартизированные библиотеки datasets и huggingface_hub, а также внутреннюю систему обработки Datatrove, обеспечивающую простой доступ и интеграцию. Влияние FinePDFs выходит далеко за рамки увеличения объёмов данных. Это новый этап в развитии ресурсов для обучения крупномасштабных языковых моделей, позволяющий получить более глубокое и разнообразное понимание специализированных областей. Возможность строить модели, учитывающие длинный контекст и узкоспециализированные знания, способствует развитию приложений в науке, технике, юридической аналитике и других сферах, где важна точность и полнота информации.
В целом, релиз FinePDFs от Hugging Face демонстрирует, как технологические инновации и смелые подходы к данным открывают новые перспективы для искусственного интеллекта. Совмещение классического текстового парсинга и продвинутых методов OCR в масштабах нескольких сотен миллионов документов позволило создать мощный инструмент для исследований и разработок. Открытость и доступность набора стимулируют эксперименты, способствуют мультидисциплинарным исследованиям и поддерживают движение к более прозрачному и инклюзивному ИИ-сообществу. FinePDFs - это не просто большой датасет. Это ключевой ресурс, который сможет изменить представление об обучающих данных, расширить границы возможного для сложных языковых моделей и ускорить внедрение ИИ в профессиональные области, где качество и надёжность информации критически важны.
.