Современные языковые модели искусственного интеллекта, такие как GPT и их аналоги, обучаются на всесторонних данных, охватывающих широкий временной диапазон и тем самым отражающих весьма разнородные культурные и идеологические особенности. Это позволяет моделям генерировать разнообразные и сложные тексты, однако неизбежно приводит к появлению современного смещения — когда алгоритмы воспринимают мир сквозь призму современных представлений, терминологии и взглядов. В результате, когда необходимо воссоздать атмосферу исторической эпохи или создать тексты, искренне отражающие дух прошлого, такие модели демонстрируют ограниченную аутентичность. Однако недавно появился интересный подход, который предлагает обучение языковых моделей исключительно на данных, добытых из определённого временного отрезка, что позволяет избавиться от современного влияния и научиться думать «в стиле той эпохи». Такой подход получил название Selective Temporal Training — селективное временное обучение, и именно на нем основан проект TimeCapsule LLM, который стал первым в своём роде воссоздавать тексты с подлинным лингвистическим и культурным колоритом XIX века, а точнее, периода с 1800 по 1875 год в Лондоне.
Эта концепция радикально меняет представление о возможностях искусственного интеллекта и открывает перспективы создания моделей для более глубокого исторического и культурологического анализа. Проект TimeCapsule LLM — любопытный эксперимент, в центре которого находится идея, что ИИ не обязательно должен просто симулировать викторианский стиль письма, а может действительно быть «вписан» в контекст того времени. Для этого были собраны тщательно отобранные тексты — книги, документы, газеты, правовые акты, печатные материалы, созданные и изданные исключительно в Лондоне в первой половине и середине XIX века. Этот объем данных охватывает около 175 тысяч текстов в открытом доступе из архива Internet Archive и составляет как минимум несколько гигабайт данных. По мере подготовки этих материалов их подвергли мануальной и автоматической очистке, удаляя современные аннотации, ошибки оптического распознавания и посторонние метаданные.
Далее было построено несколько версий модели, начиная с самых простых и заканчивая более объёмными и сложными изменениями. Обучение происходило с нуля, без использования предобученных на сегодняшних данных архитектур. Такой подход позволил получить ИИ, который не просто имитирует текст, но и демонстрирует своеобразное «понимание» исторических реалий. Модель версия 0, например, уже умела отвечать в стиле XIX века, используя характерный лексикон. Несмотря на то, что первые итерации страдали от ошибок и путаницы в предложениях, поступательно качество тексты повышалось.
Версия 0.5 показала сильный прогресс, выверено отражая викторианский стиль письма, показывая корректное использование грамматики и пунктуации того времени. Дополнительной сложностью в обучении была необходимость устранить шумы, возникавшие из-за оптического распознавания старых текстов (например, фразы «Digitized by Google», которые периодически попадали в выборку и моделировались ИИ). Хотя модель ещё склонна к фактическим ошибкам, ее тексты были гораздо ближе к достоверной эпохальной речи. Переломным стало появление версии 1, в которой зафиксирована возможность с точностью воспроизводить реальные исторические события, связывать конкретный год с известными личностями и событиями, отражая историческую достоверность в своём повествовании.
Например, модель могла рассказать о протестах 1834 года в Лондоне и упомянуть графа Палмерстона, влиятельного политика того времени, в контексте исторических событий. Это свидетельствует о том, что глубокая выборка и обучение без современных данных действительно способны увеличить «память» модели, улучшая не только стилистику, но и фактическую достоверность. Использование Selective Temporal Training коренным образом отличается от традиционного подхода с дообучением (fine-tuning) или методами LoRA, где изначально имеется вес, созданный на высокоразнообразных и современных данных. Именно специфика обучения с нуля позволяет «очистить» модель от современных знаний и ценностей, которые неизбежно проникают в исходные модели вроде GPT-2 или GPT-3. Это позволяет не просто создавать «фальшивые» тексты, похожие на старину, а по-настоящему воссоздавать видение мира и язык эпохи, их слоев социального и культурного восприятия.
Собираемый корпус текстов для расширенных версий и модификаций проекта постепенно увеличивается и планируется дополнить другими регионами и временными периодами. Возможность создания таких моделей для различных эпох открывает колоссальные перспективы для историков, лингвистов, писателей и образовательных проектов. Представьте себе возможность попросить ИИ в точности с времен Петровской России описать событие, или создать диалог, как если бы его вели жители Парижа XVIII века. Но в работе с историческими данными есть множество технических и методологических сложностей. Помимо проблем с качеством исходных текстов (сканирования, шумы OCR) важно учитывать локализацию исторических реалий, которая требует не просто знания слов, но понимания контекста и культурных кодов.
Кроме того, модель страдает от неустойчивости фактических данных — несмотря на рост объёма обучения, сохраняется риск возникновения галлюцинаций и неточностей. Тем не менее эти вопросы решаемы на уровне дополнительной очистки данных и расширения выборок. С точки зрения инфраструктуры проект демонстрирует, что и с доступными потребительскими видеокартами вроде RTX 4060 можно создать первые версии с небольшим количеством параметров, а для более мощных моделей необходима специализированная инфраструктура (аренда GPU Nvidia A100). Использование современных языковых архитектур, таких как nanoGPT от Андрея Карпатого и Phi 1.5 от Microsoft, позволило эффективно сочетать проверенные методики с новыми экспериментами.
Выводы, которые можно сделать из опыта TimeCapsule LLM, подчеркивают потенциал узкоспециализированных языковых моделей, обученных в ограниченных временных рамках. Такой искусственный интеллект становится не только инструментом генерации текста, но и своеобразным хранителем и представителем исторической эпохи. Такой подход способен обогатить наши методики работы с историческими данными и обеспечить более точные образовательные материалы, а также вдохновить современные литературные и творческие проекты на глубже погружение в прошлое. В эпоху, когда внимание к генеративному ИИ сосредоточено на масштабности и универсальности, возвращение к временнóй селективности и глубокому погружению в конкретный период открывает новые горизонты, давая возможность создавать модели с минимальным «современным шумом» и максимальным уважением к контексту эпохи. Это не только снимает проблему современных предубеждений и искажения фактов, но и может стать инструментом сохранения культурного наследия в цифровом формате.
Будущее временно ограниченных языковых моделей обещает быть захватывающим — их применение выйдет далеко за рамки науки и искусства, затронет музейное дело, архивацию, образование и даже общественные дискуссии, помогая увидеть историю яснее и глубже через призму живого, «говорящего» прошлого.