Древние надписи – одни из самых ценных источников информации о жизни, языке и культуре античных цивилизаций. Эти тексты, запечатленные на камне, металле и других материалах, открывают двери в прошлое, позволяя историкам восстанавливать события, традиции и мировоззрения обществ, которые существовали тысячи лет назад. Однако обработка и интерпретация таких надписей сопряжены с множеством сложностей. Многие тексты частично утрачены или повреждены, отсутствуют точные данные о времени и месте их создания, а также присутствуют сложные сокращения и архаизмы. Традиционные методы исследования требуют огромного объема времени, глубоких знаний и доступа к разрозненным источникам, что ограничивает возможности масштабного анализа и сопоставления материалов.
В последние годы с развитием искусственного интеллекта появилась уникальная возможность изменить подход к изучению древних текстов. Среди новейших достижений выделяется создание генеративных нейронных сетей, способных не только восстанавливать утраченные фрагменты надписей, но и сопоставлять их с исторически значимыми параллелями, что значительно расширяет контекст интерпретации. Одной из передовых моделей является Aeneas – мультизадачная генеративная нейронная сеть, специально разработанная для обработки латинских надписей. Она сочетает в себе как текстовые, так и визуальные данные, что позволяет учитывать не только содержание текста, но и его физические характеристики, такие как шрифт, иконография и материал изделия. Особенность Aeneas заключается в способности восстанавливать пропуски неизвестной длины в тексте, что кардинально отличается от предыдущих моделей, ограниченных точным размером восстанавливаемых фрагментов.
Для обучения модели был создан крупный, унифицированный корпус латинских надписей, включающий более 170 тысяч экземпляров, охватывающих широкие временные и географические рамки – от VII века до н.э. до VIII века н.э. и от Британии до Месопотамии.
В этот корпус вошли данные из нескольких ведущих эпиграфических баз, тщательно стандартизированные для обеспечения совместимости и качества. Несмотря на то, что лишь небольшая часть текстов имеет сопутствующие изображения, использование визуальной информации значительно улучшило результаты моделей в задачах географической атрибуции. Архитектура Aeneas базируется на трансформерной модели T5 с применением ротационных позиционных эмбеддингов, что обеспечивает эффективную обработку текста до 768 символов. Визуальные данные анализируются при помощи специализированной сверточной нейронной сети ResNet-8. Результаты работы системы включают не только варианты восстановления текста, но и вероятностные оценки времени создания надписи и её географического происхождения, а также списки релевантных параллельных надписей – исторически значимых аналогов для сопоставления.
Ключевое достоинство Aeneas – механизм контекстуализации. Модель формирует так называемые «исторически богатые эмбеддинги», объединяющие информацию из всех задач, что позволяет эффективно находить связи между надписями на основе их содержания, исторического контекста и эпиграфических особенностей. Этот подход превосходит традиционные методы поиска, которые ограничиваются буквальными совпадениями или неглубоким семантическим анализом. Эффективность Aeneas была проверена в крупнейшем на сегодняшний день совместном исследовании с участием профессиональных эпиграфистов. В рамках эксперимента более двадцати экспертов выполняли задачи восстановления, датировки и географического присвоения надписей сначала самостоятельно, а затем с помощью выводов модели.
Результаты показали, что предоставленные моделью параллели служили полезной отправной точкой в 90% случаев, повышая уверенность исследователей в их решениях в среднем на 44%. Более того, совместная работа специалистов и модели давала лучшие результаты, чем отдельная работа каждого по отдельности. Примером реального применения стала работа с надписью Res Gestae Divi Augusti – памятным текстом императора Августа, выдержанным на стенах храма в Анкирии. Aeneas успешно определил хронологический интервал создания надписи, сопоставил её с рядом государственных актов того времени и выделил из текста специфические исторические маркеры. Анализ визуальных и текстовых признаков позволил нейросети учитывать особенности орфографии, ссылки на политические институты и памятники, а также употребление личных имён, характерных для эпохи.
Помимо научного исследования, разработчики Aeneas вместе с образовательными учреждениями создали учебные курсы, позволяющие школьникам и педагогам познакомиться с возможностями искусственного интеллекта в гуманитарных науках. Этот подход способствует повышению цифровой грамотности будущих специалистов и расширению интереса к античной истории. Несмотря на очевидные достижения, Aeneas сталкивается с рядом ограничений. Модель зависит от объёма и качества доступных данных, а также от их географического и временного представительства. Относительно небольшое количество изображений и неравномерное распределение текстов по регионам влияет на точность географической и хронологической атрибуции.
Кроме того, для некоторых типов текстов, таких как короткие или сильно фрагментированные надписи, использование модели может быть рискованным ввиду ограниченного контекста для анализа. Перспективы развития подобных систем включают интеграцию с диалоговыми моделями нового поколения, что позволит вести естественную беседу с ИИ, уточнять ответы и получать более развёрнутые пояснения. Также важной задачей является более точное моделирование «широких» временных интервалов в датировках и расширение мультимодальных возможностей, в том числе с учётом расширенного круга материалов – папирусов, рукописей и нумизматических источников. Сферы применения генеративных нейросетей в области древних текстов продолжают расширяться, объединяя методы компьютерных наук и исторической науки, давая уникальную возможность ускорить и углубить исследовательский процесс. Взаимодействие искусственного интеллекта и специалистов-гуманитариев открывает новые горизонты в реконструкции и интерпретации культурного наследия, позволяя раскрыть ранее недоступные аспекты истории и языка.
Таким образом, генеративные нейронные сети, как Aeneas, представляют собой значительный прорыв в цифровой гуманитаристике, становясь незаменимыми инструментами для изучения, восстановления и контекстуализации древних надписей. Они не просто помогают с технической стороной работы, но и создают новую парадигму совместной науки, где технологии и человеческий опыт дополняют друг друга во имя глубокого и точного понимания прошлого.