Человечество всегда стремилось понять своё прошлое, опираясь на письменные свидетельства древних цивилизаций. Одним из наиболее ценных источников информации являются эпиграфические данные — тексты, высеченные на камне или металле, сохраняющие память о событиях, общественной жизни и культурных особенностях эпох. Несмотря на огромное культурное значение, изучение подобных надписей сопряжено с множеством сложностей, начиная с физического повреждения текстов, различных вариантов написания и заканчивая отсутствием точного контекста. Традиционные методы, требующие глубоких специалистов и масштабных ручных поисков, зачастую ограничены и требуют значительных временных затрат. Именно здесь современные методы искусственного интеллекта, в частности генеративные нейросети, вносят революционные изменения в подходы к исследованию древних текстов.
Одним из новаторских проектов в этой сфере стала разработка модели Aeneas — генеративной нейросети, способной комплексно обрабатывать эпиграфический материал на латинском языке. Эта система не ограничивается только текстовым анализом, она интегрирует визуальную информацию, учитывая изображение самой надписи, что даёт более полное представление о контексте. Aeneas способна восстанавливать пропущенные или поврежденные фрагменты текста, иногда даже при неизвестной длине утраченного отрезка, что ранее было серьёзной технической проблемой для алгоритмов. Кроме того, модель выполняет географическую и хронологическую атрибуцию, позволяя с довольно высокой точностью определить место и время создания надписи. Главной особенностью Aeneas является механизм контекстуализации — способность находить параллели среди обширной базы данных латинских надписей, объединяя исторический и лингвистический анализ.
Такой подход выходит далеко за рамки простого совпадения строк и распознавания отдельных слов. Модель изучает формулы, стилистические элементы, культурные особенности и даже аббревиатуры, формируя углубленное представление о взаимосвязях между текстами. Это существенно облегчает работу историков, предоставляя им релевантные аналоги, которые могут служить отправной точкой для дальнейших исследований и интерпретаций. Важным фактором успеха Aeneas стало создание уникального набора данных — Latin Epigraphic Dataset (LED), объединившего крупнейшие мировые базы латинских надписей. Объём корпуса составляет свыше 175 тысяч записей, что даёт модели обширную и разностороннюю выборку, охватывающую несколько веков и территории всей Римской империи.
Тексты стандартизированы и тщательно подготовлены к машинной обработке, а к части из них добавлены изображения надписей, обеспечивающие мультимодальное обучение. Несмотря на относительную скромность по объему в сравнении с современными языковыми корпусами, этот датасет стал сутью, на которой была построена архитектура нейросети. Технически Aeneas основана на трансформерной архитектуре с интеграцией особых механизмов позиционного кодирования и глубоким декодером, что позволяет эффективно обрабатывать текст посимвольно. Визуальная информация поступает в модель через отдельный свёрточный блок, который анализирует изображение надписи. Такая комбинация данных помогает повысить точность прогнозов географического происхождения текста, учитывая оформление и размещение надписи, что зачастую указывает на локальные традиции и региональные особенности письма.
Для восстановления текста Aeneas применяет генеративные методы, используя варианты восстановлений с учетом вероятностной оценки. Особняком стоит задача восстановления пропусков неизвестной длины — в древних артефактах повреждения могут быть непредсказуемыми, и алгоритм учитывает это, позволяя предложить несколько гипотез, что приближает машинный анализ к практическим методам экспертов. Восстановленная текстовая информация, дополненная контекстуальными параллелями, значительно облегчает интерпретацию сложных или частично утраченных надписей. Результаты применения Aeneas в научных исследованиях подтвердили эффективность и уникальность метода. В ходе масштабного эксперимента с участием 23 историков, обладающих специализированными знаниями по латинской эпиграфике, было показано, что использование модели как вспомогательного средства повышает точность и уверенность экспертов в выполнении ключевых задач, включая восстановление текста, определение времени и места создания надписей.
Историки отмечали, что предложенные системой параллели обычно служат надежной базой для построения гипотез и существенно сокращают время на поиск релевантных источников. В качестве конкретного примера был исследован знаменитый императорский памятник — Res Gestae Divi Augusti (RGDA). Анализ разделов этого сложного документа с помощью Aeneas продемонстрировал, что модель верно определяет хронологические особенности, даже игнорируя прямые ссылки на даты, опираясь исключительно на лингвистические и стилистические маркеры, а также выявляет параллели с другими официальными текстами Рима, что подтверждает глубокое понимание исторического контекста. Это показывает, что искусственный интеллект может эффективно дополнять традиционные исторические методы, обеспечивая количественную поддержку аргументации. Нельзя не отметить и мультидисциплинарный подход команды разработчиков, в которой приняли участие специалисты в области искусственного интеллекта, филологи, эпиграфисты и педагоги.
Такой синтез знаний позволил не только создать технически совершенную модель, но и обеспечить ее интеграцию в реальные научные и образовательные процессы. Более того, был разработан образовательный курс для школьников и преподавателей, ориентированный на использование Aeneas в качестве обучающего инструмента, что способствует распространению цифровой грамотности и укреплению связей между гуманитарными науками и технологиями. Несмотря на значительные успехи, проект сталкивается с ограничениями, обусловленными неполнотой и неоднородностью исходных данных. Доступность изображений ограничена примерно 5% надписей, что сужает потенциал визуального анализа, а данные по некоторым регионам и периодам представлены скудно, что сказывается на точности атрибуции. Кроме того, есть риск подтверждения существующих гипотез, так как модель обучается на данных, содержащих редакторские восстанавливающие вставки.
Тем не менее, исследователи ведут работу над преодолением этих проблем и расширением возможностей модели, включая разработку интеграции с крупными языковыми моделями диалогового формата и расширение мультимодальности. Перспективы развития включают создание более интуитивных инструментов для интерактивного взаимодействия экспертов с моделью, улучшенную обработку неопределенностей в датировках и более широкий охват языков и форм древних письменностей. Рост открытых данных, улучшение качества разметки и дальнейшее усиление междисциплинарных исследований окажут существенное влияние на развитие цифровой эпиграфики. Таким образом, использование генеративных нейросетей в контекстуализации древних текстов открывает новую эпоху для историков и лингвистов. Инновационный подход, совмещающий машинное обучение, визуальный анализ и историческую экспертизу, позволяет эффективно восстанавливать, анализировать и атрибутировать эпиграфические источники.
Это не только ускоряет научные процессы, но и расширяет возможности для глубокого понимания культурного наследия, формируя условия для качественно нового взаимодействия человека и машины в гуманитарных науках.