История жизни на Земле — это череда важных событий, перевернувших биологическое разнообразие и уровни сложности организмов. Одним из наиболее ключевых и значимых является появление эукариот — клеток с ядром и специализированными органеллами, благодаря которым развились растения, животные и грибы. Несмотря на важность этого перехода, многое оставалось неясным о том, какие именно механизмы позволили преодолеть ограничения простой прокариотической жизни и привести к появлению более сложных клеточных форм. Новое исследование, проведённое Энрике Му́ро, Фернандо Х. Баллестеросом, Бартоло Лукве и Жорди Баскомпте, внесло значительный вклад в понимание этой загадки, предложив концепцию эволюционного алгоритмического фазового перехода.
В основе их работы лежит анализ длины генов и белков у более 6500 видов, охватывающих все жизненные домены. Результаты показывают, что природа эволюции на клеточном уровне тесно связана с алгоритмическими принципами и ограничениями поиска в сложных пространствах вариаций. Для более глубокого понимания проведённого исследования стоит рассмотреть основные выводы и причины, по которым появление эукариот можно рассматривать через призму алгоритмического фазового перехода. До перехода к эукариотам жизнь на протяжении почти двух миллиардов лет была ограничена простыми прокариотическими клетками — бактериями и археями. В их генах доминировали кодирующие последовательности, кодирующие белки, которые выступали в роли главного регулятора активности генов.
Такая система имела существенные ограничения, поскольку создание и поиск в эволюционном процессе всё более длинных и сложных белков становился задачей, требующей экспоненциально возрастающих вычислительных ресурсов. Иными словами, на уровне биологии возникала проблема, напоминающая вычислительную сложность алгоритмических задач. Изучение распределения длины генов выявило, что оно подчиняется логнормальному закону. Логнормальное распределение известно тем, что часто присутствует в системах, где элементы растут путем множительного (умножающего) процесса, когда длина гена изменяется случайным образом, умножаясь на случайный множитель. Данный факт позволил авторам построить математическую модель, где рост длины генов через эволюцию представляет собой подобие случайного блуждания с множительным фактором.
Значимо, что эта модель предсказала два ключевых закона роста генов во времени. Первый гласит, что средняя длина гена растёт экспоненциально с течением времени. Второй показывает, что средний логарифм длины гена меняется линейно во времени. Эти закономерности были подтверждены анализом данных различных эволюционных групп, что позволяет утверждать о длительном и масштабном сохранении таких механизмов. Одним из наиболее интересных результатов стало открытие масштабно-инвариантного соотношения между средней длиной гена и её дисперсией.
Аналогичные соотношения в биологии и экологии известны как закон Тейлора и отражают фундаментальные структурные свойства величин. В контексте генетики это говорит о строго сохраняющихся правилах эволюционного роста генов, что согласуется с данными из широкого спектра живых организмов, от простейших бактерий до сложнейших животных. Однако самым важным оказалось выявление, что при достижении определённого критического значения средней длины гена (около 1500 пар оснований) поведение системы резко меняется. Если до этого момента длина белка и длина гена были пропорциональны (поскольку гены содержали преимущественно кодирующие последовательности), то после этого порога рост длины гена стал происходить за счёт увеличения некодирующих областей, таких как интроны и другие регулирующие участки. Белки при этом перестали расти в длину, стабилизировавшись примерно на уровне 500 аминокислот.
Эта точка соответствует фазовому переходу второго порядка в алгоритмическом смысле, когда система переходит от одной «фазы» (простое соотношение гена и белка) к другой, характеризующейся большей регуляторной гибкостью и многообразием. Такой переход напоминает «алгоритмический праздник лёгкости-трудности-лёгкости», известный из теории вычислительной сложности и статистической физики, когда задача поиска решения сначала усложняется, достигая максимума сложности, а затем снова упрощается благодаря появлению новой структуры или механизма. В биологическом контексте этот фазовый переход означал кризис вычислительной сложности: дальше рост длины белков становился невозможен из-за невозможности эффективно «искать» функциональные белки в слишком огромном пространстве вариантов. Решение было найдено эволюцией в виде усиления регуляторных некодирующих последовательностей, позволивших создавать многочисленные вариации при том же базовом наборе белков. Данный переход сдвинул архитектуру геномов и клеток, открыв путь к многообразию и усложнению жизни, в частности к многообразию эукариотических клеток и многоклеточных организмов.
Временные оценки, выведенные из модели, показывают, что этот переход произошёл примерно 2,600 миллионов лет назад — в согласии с данными палеонтологии и молекулярной филогенетики о времени возникновения первых эукариотических форм. Стоит подчеркнуть, что такой подход дополняет классические концепции эволюционной биологии. Традиционная популяционная генетика, например, подчёркивает влияние дрейфа генов и размер популяций на накопление сложных признаков. Новый взгляд через алгоритмическую сложность поднимает вопрос о физических и информационных ограничениях, управляющих этой трансформацией, подчеркивая роль нейтральных и неадаптивных процессов в комплексном появлении новых биологических свойств. Полученные результаты также связаны с энергетической теорией происхождения эукариот, поскольку именно появление митохондрий обеспечило энергетическую поддержку для развития более сложных геномов и регуляторных сетей, что согласуется с необходимостью преодолеть ограничение на белковую длину.