В последние два десятилетия наука столкнулась с революционным прорывом в области молекулярной биологии — разработкой методов ДНК-баркодирования, которые позволили значительно упростить и ускорить идентификацию видов живых организмов. Традиционное ДНК-баркодирование основано на анализе коротких фрагментов ДНК, которые служат уникальными маркерами для различных таксонов. Несмотря на огромные достоинства этого подхода, он имеет ряд ограничений, которые затрудняют применение его ко всем организмам на Земле, особенно при работе с фрагментированными или низкокачественными образцами. Многие существующие методы сосредоточены на сравнении гомологичных генов, таких как рbcL и matK у растений или COI у животных. Однако эти методы порой недостаточны для точной идентификации близкородственных таксонов или универсального охвата всех царств живых организмов.
Кроме того, необходимость амплификации отдельных локусов усложняет анализ поврежденных и исторических образцов, а также снижает масштабируемость при изучении огромного разнообразия жизни. Новый подход, базирующийся на низкоконтурном геномном сканировании (genome skimming) и машинном обучении, кардинально меняет правила игры. Метод varKoding предлагает инновационное решение с использованием «глубокого» анализа всего набора коротких последовательностей ДНК, собранных из образца, без необходимости сборки или выделения определенных генов. Это позволяет упростить процесс и расширить сферы применения идентификации, охватывая растения, животных, грибы и бактерии. В основе varKoding лежит преобразование статистики коротких последовательностей — так называемых k-миров — в двухмерные изображения, отражающие геномный «отпечаток» каждого организма.
Эти изображения, получившие название varKodes, кодируют частотные вариации k-миров с учетом их подобия, придавая определенную яркость пикселям. Такое «визуальное» представление генетической информации открывает возможности для применения мощных архитектур нейронных сетей, изначально разработанных для обработки изображений. Одна из ключевых сложностей заключалась в том, чтобы извлечь более информативные признаки из крайне малого объема данных, что характерно для низкоконтурного сканирования. В отличие от необходимости полного секвенирования или сборки генома, varKoding успешно работает с долей геномных данных — зачастую менее 0,1× покрытия, что снижает дорогостоящие затраты и ускоряет процесс анализа. Использование алгоритма ViT (Vision Transformer) в сочетании с модифицированным представлением chaos game (rfCGR) позволило добиться точности выше 90% в распознавании видов даже при таких минимальных объемах данных.
Кроме того, применение методов аугментации данных и интеллектуальных стратегий обучения позволило устранить необходимость в больших тренировочных наборах, что часто является проблемой для глубокого обучения в биологических задачах. Тестирования технологии varKoding не ограничивались отдельными таксонами. Научные группы провели обширные эксперименты на охватных группах, включающих более 250 видов, охватывающих растения, насекомых, грибы и бактерии. Результаты подтвердили универсальность и масштабируемость метода: с единичной обученной моделью можно проводить идентификацию таксонов на различных уровнях — от семейства до вида. Более того, технология продемонстрировала устойчивость к вариациям качества ДНК и особенностям платформ секвенирования.
Важным преимуществом varKoding стала способность эффективно классифицировать данные из огромных публичных баз, таких как National Center for Biotechnology Information Sequence Read Archive (NCBI SRA), содержащих сотни тысяч последовательностей разной природы и качества. В условиях постоянно растущего объема биоинформационных данных способность быстро и точно обрабатывать низкоконтурные геномные срезы позволяет существенно повысить скорость исследований и снизить затраты. Для практического применения varKoding разработан набор программных инструментов, легко интегрируемых в существующие биоинформатические проекты. Кроме того, технология поддерживает модульность, что позволяет адаптироваться к новейшим достижениям в области нейросетевых архитектур и повышать эффективность с помощью обновленных моделей. Опираясь на успехи varKoding, экологи, систематики и биотехнологи получают мощный инструмент для анализа природных образцов, мониторинга биоразнообразия, расследования охоты на диких животных, а также для изучения древних и поврежденных ДНК, встречающихся в природных и музейных коллекциях.
Способность идентифицировать виды с использованием минимальных объемов секвенированных данных и ограниченных вычислительных ресурсов открывает путь к более оперативным и доступным технологиям в полевых условиях. Таким образом, композитная универсальная ДНК-подпись, реализованная через varKoding, представляет собой значительный шаг вперед в молекулярной биологии и биоразнообразии. Она объединяет в себе глубину геномного анализа, точность искусственного интеллекта и практическую простоту низкоконтурного секвенирования и обработки данных. Эта технология способна значительно расширить возможности научного сообщества по изучению и сохранению древа жизни на нашей планете, предлагая универсальный, масштабируемый и эффективный инструмент для идентификации и исследования видов во всех царствах живого.