Древние надписи являются уникальными источниками информации, предоставляющими непосредственный взгляд на жизнь, язык и мышление древних цивилизаций. Эти надписи во многом формируют наше понимание истории и культуры прошлого. Однако работа с такими текстами сопряжена с многочисленными трудностями: многие из них повреждены временем, в них встречаются аббревиатуры и утраты целых фрагментов, что затрудняет их расшифровку и классификацию. Традиционные методы исследования требуют глубоких знаний и длительного сопоставления с другими источниками, что не всегда оказывается эффективным или практичным в условиях большого объема данных и разнообразия текстов. В последние годы на смену классическим подходам приходит применение искусственного интеллекта и, в частности, генеративных нейронных сетей, что позволяет революционизировать процесс исследования древних текстов.
Генеративные нейронные сети, такие как Aeneas, специально разработанные для решения задач, связанных с эпиграфикой, кардинально меняют парадигму работы с надписями. Они не просто восстанавливают утраченные фрагменты текстов, опираясь на контекст, что уже само по себе сложно для человека, но и способны определять временные рамки создания текстов, учитывать их географическое происхождение и находить параллельные надписи с общими фразеологическими, функциональными и культурными характеристиками. Кроме того, Aeneas интегрирует мультиформатные данные, объединяя информацию как из текстов, так и из изображений самих надписей, что усиливает точность атрибуции и восстановления. Основной проблемой в изучении таких древних текстов является их поврежденность и сложность восстановления. Часто не известна даже точная длина утраченного фрагмента, что требует гибкой модели для декодирования текста с пропусками неизвестного размера.
Aeneas решает эту задачу с помощью специального подхода, который предсказывает вероятность наличия одного или нескольких пропущенных символов в процессе восстановления, позволяя генерировать текст, максимально приближенный к оригиналу по смыслу и стилистике. Ключевым аспектом успеха таких систем является их умение создавать так называемые «исторически насыщенные эмбеддинги» — векторные представления текстов, которые учитывают не только лингвистическую, но и культурно-историческую информацию. Эти эмбеддинги позволяют определять близкие по содержанию, функции и историческому контексту тексты, выявляя параллели между надписями, которые могут быть удалены географически и хронологически. Это расширяет поле анализа и снижает субъективность ученых, предоставляя научно обоснованные рекомендации и отправные точки для дальнейших исследований. Модель Aeneas была обучена на крупнейшем сборнике данных латинских надписей – Latin Epigraphic Dataset (LED), включающем более 170 тысяч текстов, охватывающих период с VII века до н.
э. до VIII века н.э., и географически распределенных от Британии и Португалии до Египта и Месопотамии. Благодаря тщательной предварительной обработке, стандартизации и очистке данных, а также интеграции изображений надписей, система достигла впечатляющих результатов и значительно превзошла существующие модели в задачах восстановления текста, определения места и времени его создания.
Эффективность Aeneas была подтверждена комплексным исследованием с привлечением 23 экспертов-эпиграфистов. В ходе эксперимента специалисты выполняли ключевые задачи традиционным способом и с поддержкой результатов, генерируемых моделью. По итогам выяснилось, что с помощью Aeneas эксперты повышали точность восстановления текстов и атрибуцию, а также добивались значительного прироста уверенности в своих выводах. Особенно заметен синергетический эффект в случае предоставления не только параллельных надписей, но и непосредственно предсказаний модели, что делало процесс анализа более быстрым и надежным. Важным прикладным примером стала работа с «Res Gestae Divi Augusti» – знаменитой римской надписью, относящейся к периоду правления императора Августа.
Aeneas успешно определил дату создания текста, учитывая особенности латинской орфографии, посвящения и упоминания исторически значимых персон и событий. Модель также выделила текстуальные и визуальные элементы, служащие ключевыми маркерами для датировки и географической локализации. Анализ параллелей, найденных системой, подтвердил общие исторические гипотезы, демонстрируя, как искусственный интеллект может служить надежным вспомогательным инструментом для историков. Еще одним интересным кейсом стала идентификация и сопоставление военных надписей в областях современной Германии, где Aeneas помог установить связи между надписями, отражающими распространенные религиозные и культурные практики имперского периода. Модель не ограничилась буквальными совпадениями строк, но выявила более тонкие исторические и языковые связи, что сложно сделать вручную при объемном изучении.
Несмотря на очевидные преимущества, у систем искусственного интеллекта есть ограничения. В частности, качество итоговых предсказаний зависит от объема и репрезентативности тренировочных данных, а также от качества их метаданных – информации о времени и месте создания надписей. Для регионов и периодов с малым количеством данных точность атрибуции снижается. Кроме того, несмотря на мощь визуального компонента, изображения надписей доступны лишь для небольшой части корпуса, что ограничивает мультиформатный анализ. Основная задача в дальнейшем развитии подобных систем – расширение масштабов и качества датасетов, увеличение доли высококачественных и стандартизированных изображений, а также интеграция дополнительных источников информации и методик.
Это позволит не только повысить точность текущих моделей, но и расширить их применимость на другие древние языки и типы источников – от папирусов до древних рукописей и монет. К обучению и развитию системы Aeneas был применен современный подход с использованием трансформерных архитектур, дополненных ротационными позиционными эмбеддингами, что обеспечивает лучшее понимание разметки и контекста текста. Также реализована многоуровневая система голов (heads), каждое из которых решает специализированную задачу – восстановление текста, атрибуцию по месту и времени. Визуальные данные обрабатываются отдельной сверточной сетью, а затем интегрируются в комплексный анализ, особенно усиливающий точность географической локализации. Aeneas демонстрирует пример идеального симбиоза гуманитарных наук и технологий, когда искусственный интеллект не заменяет эксперта, а становится его эффективным ассистентом, позволяя быстрее ориентироваться в массивных данных, идентифицировать скрытые связи и сосредоточить усилия на толковании и анализе.
Такой подход не только повышает качество исторических исследований, но и открывает возможности для обучения и преподавания, вводя современные цифровые методы в процессы исторического образования. Zавершая обзор, следует отметить, что внедрение генеративных нейронных сетей в область эпиграфики и древних текстов меняет устоявшиеся подходы к исследованиям, переводя их в эпоху цифрового анализа и искусственного интеллекта. Перспективы развития и применение таких инструментов обещают раскрыть новые пласты исторического знания, углубить понимание языковых и культурных процессов древности, а также обеспечить более широкое и доступное использование этих сведений в научной и образовательной деятельности.