ОКО ПЛАНЕТЫ > Естествознание > Формальные статистические тесты подтверждают происхождение всех живых организмов от единого предка
Формальные статистические тесты подтверждают происхождение всех живых организмов от единого предка23-05-2010, 11:06. Разместил: Редакция ОКО ПЛАНЕТЫ |
||||
Формальные статистические тесты подтверждают происхождение всех живых организмов от единого предка
Идея о единстве происхождения всего живого является общепринятой среди биологов, однако аргументы в ее пользу имеют в основном качественный, а не количественный характер. Формальные статистические тесты, основанные на «теории выбора моделей» (model selection theory) и не использующие априорного допущения о том, что сходство белковых молекул говорит об их родстве, показали, что гипотеза о едином происхождении всего живого гораздо более правдоподобна, чем альтернативные модели, предполагающие независимое происхождение разных групп организмов от разных предков. Дарвин думал, что все живые организмы произошли либо от одной исходной формы, либо от нескольких (см. common descent). Дарвин оставил вопрос о количестве первопредков открытым, потому что в XIX веке наука еще не располагала средствами для решения этой проблемы. В наши дни большинство биологов уверено, что всё живое произошло от «последнего универсального общего предка» (last universal common ancestor, LUCA). Этот предок, впрочем, вряд ли был единичным организмом или «видом» в современном понимании этого слова, а, скорее, представлял собой полиморфное микробное сообщество, в котором осуществлялся активный горизонтальный обмен генами. Конечно, LUCA не был первым живым существом на свете: его появлению предшествовала долгая эволюция (в ходе которой, в частности, сформировался современный генетический код и аппарат синтеза белка, см.: Vetsigian, Woese, Goldenfeld. 2006. Collective evolution and the genetic code). Одновременно с LUCA, скорее всего, жили и другие существа, но их потомки вымерли. Большинство экспертов считает, что у LUCA уже были ДНК и РНК, ферменты репликации и транскрипции, рибосомы и другие компоненты аппарата синтеза белка. Сильнейшим аргументом в пользу реальности LUCA является единство генетического кода и фундаментальное сходство молекулярных систем синтеза ДНК, РНК и белков у всех живых организмов (см.: Молекулярно-генетические доказательства эволюции). Но этот аргумент, при всей его убедительности, является не количественным, а качественным. Численно оценить его силу весьма непросто. Если жизнь однажды зародилась на Земле или в космосе, то теоретически она могла зародиться и несколько раз. В принципе можно предположить, что современная жизнь происходит более чем от одного предка. Например, бактерии могли произойти от одного, а археи — от другого предка (такая точка зрения изредка высказывается, хотя сторонников у нее мало). Строгие статистические процедуры для разрешения этой дилеммы до сих пор практически не использовались. Стандартные методики сравнения нуклеотидных последовательностей ДНК и аминокислотных последовательностей белков включают в себя вычисление ряда количественных показателей, отражающих вероятность того, что наблюдаемое сходство — результат случайности (см.: The Statistics of Sequence Similarity Scores). Низкие значения этих показателей свидетельствуют о статистической значимости (неслучайности) сходства, но в принципе они не являются строгим доказательством родства (единства происхождения) сравниваемых молекул. Высокое сходство двух последовательностей теоретически может объясняться не только их общим происхождением, но и конвергентной эволюцией под действием сходных факторов отбора. Еще более серьезные претензии можно предъявить к большинству компьютерных программ, предназначенных для построения эволюционных деревьев. Эти программы, как правило, ориентированы на то, чтобы на основе любого набора сравниваемых последовательностей построить «наилучшее», то есть имеющее максимальную статистическую поддержку, эволюционное дерево. Эти программы просто не рассматривают возможности существования нескольких не связанных между собой деревьев, растущих из нескольких независимых корней. При помощи этих методов можно количественно оценивать и сравнивать «правдоподобие» различных деревьев, но нельзя понять, является ли модель с одним деревом более или менее правдоподобной, чем модели с двумя или тремя независимыми деревьями. Иными словами, идея единого общего предка «вмонтирована» в эти программы изначально (что отражает глубокую убежденность биологов в существовании такого предка у любой пары живых организмов). Дуглас Теобальд (Douglas L. Theobald) из Университета Брандейса (США) попытался преодолеть эти ограничения и разработать независимые статистические тесты для проверки гипотезы LUCA, в которые не была бы встроена идея о том, что сходство последовательностей есть мерило их родства, и тем более не была бы изначально заложена идея единства происхождения. Теобальд не пытался выяснить, насколько весомым с точки зрения статистики является единство генетического кода всех организмов. Его задача была более узкой: он хотел количественно оценить, насколько надежными (или ненадежными) являются свидетельства в пользу LUCA, заключенные в аминокислотных последовательностях ключевых белков, которые есть у всех живых существ. Подход Теобальда основан на тестах, разработанных в рамках теории выбора моделей (model selection theory). Для сравнения конкурирующих эволюционных моделей использовались три теста: 1) log likelihood ratio, LLR (см. Likelihood-ratiotest; 2) Akaike information criterion (AIC); 3) log Bayes factor. Эти тесты количественно оценивают «правдоподобие» (likelihood) сравниваемых моделей (в данном случае — эволюционных реконструкций, состоящих из одного или многих деревьев) на основе двух основных критериев: 1) точности соответствия модели реальным фактам, 2) парсимоничности (экономности) модели. Иными словами, эта методика позволяет выбрать из множества моделей такую, которая наиболее точно описывает (объясняет) наблюдаемые факты, используя для этого минимальное число допущений («свободных параметров»). Теобальд анализировал аминокислотные последовательности 23 белков, которые есть у всех живых организмов (в основном это белки, участвующие в синтезе белка аминоацил-тРНК-синтетазы, рибосомные белки, факторы элонгации и др.). Белковые последовательности были взяты у 12 организмов: четырех бактерий, четырех архей и четырех эукариот (дрожжи, дрозофила, червь C. elegans, человек). Сравниваемые эволюционные модели строились на основе ряда общепринятых допущений. Предполагалось, что аминокислотные последовательности могут постепенно меняться в ходе эволюции путем замены одних аминокислот другими. Использовались разработанные ранее матрицы 20 × 20, отражающие эмпирическую вероятность или частоту замены каждой аминокислоты на любую другую. Предполагалось также, что аминокислотные замены, происходящие в разных эволюционных линиях и в разных участках белка, не скоррелированы друг с другом. Гипотеза единого общего предка (LUCA) сравнивалась с гипотезами о нескольких общих предках, причем вопрос об однократном или множественном зарождении жизни остался за кадром. Дело в том, что гипотеза LUCA вполне совместима с множественным зарождением жизни. В этом случае либо все остальные древние формы жизни, кроме LUCA, не оставили доживших до наших дней потомков, либо представители нескольких независимо возникших популяций в ходе эволюции приобрели способность обмениваться генами друг с другом и фактически слились в один вид. Модели, рассматриваемые Теобальдом, совместимы с обоими этими сценариями.
Автор рассмотрел два класса моделей: в первом из них горизонтальный генетический обмен не учитывался, и организмы должны были эволюционировать в соответствии с древовидными схемами. Модели второго класса допускали горизонтальный обмен (в том числе симбиогенетическое слияние двух организмов в один), поэтому схемы получались не древовидные, а сетчатые, с перемычками между ветвями. В пределах каждого класса сравнивались между собой наиболее правдоподобные модели, построенные на основе различных допущений о количестве исходных предков. Модель единого происхождения (ABE, где A — археи, B — бактерии, E — эукариоты) сравнивалась с разнообразными моделями множественного происхождения: AE + B (у архей и эукариот был один общий предок, но бактерии произошли от другого предка), AB + E, BE + A, A + B + E и т. д. Рассматривалась даже возможность независимого происхождения многоклеточных животных или человека. Все три использованных теста во всех случаях уверенно поддержали гипотезу LUCA в противовес альтернативным гипотезам множественного происхождения. Например, для моделей класса 1 «правдоподобие» гипотезы ABE оказалось выше, чем у ее ближайшего конкурента (модели AE + B) в 102860 раз. Это число даже нельзя назвать «астрономическим», в астрономии столь больших чисел нет. Примерно такую же надежную поддержку получили гипотезы класса 2 (с горизонтальным переносом) при сравнении их с гипотезами класса 1. Самой правдоподобной моделью, с огромным отрывом от всех остальных, оказалась модель LUCA 2-го класса: с единым общим предком и сетчатой структурой, обусловленной горизонтальным генетическим обменом между эволюционирующими линиями. Эта модель, в частности, адекватно отражает симбиогенетическое происхождение эукариот: некоторые из 23 рассмотренных белков эукариоты явно унаследовали от бактерий, а другие — от архей. Таким образом, аминокислотные последовательности ключевых белков, имеющихся в каждой живой клетке, дают мощную статистическую поддержку гипотезе LUCA. При этом главным свидетельством в пользу единства происхождения является не величина сходства как таковая (реальное сходство гомологичных белков у человека, дрожжей и бактерий на самом деле не так уж велико), а характер (или структура) этого сходства, то есть распределение одинаковых или близких по свойствам аминокислот по белковой молекуле у разных организмов. Структура наблюдаемого сходства такова, что она обеспечивает «выводимость» одних белков из других, и поэтому гипотеза единого происхождения объясняет всю картину гораздо лучше, чем другие модели. В дополнительных материалах (PDF, 352 Кб) к обсуждаемой статье Дуглас Теобальд приводит вымышленные примеры белковых молекул, которые обладают очень высоким сходством, но для которых единое происхождение оказывается менее вероятным, чем множественное. Например, так получается, если белок A сходен с белком B по одним аминокислотным позициям, а с белком C — по другим. Что касается реальных белков, то гипотеза LUCA объясняет наблюдаемое сходство наиболее «экономным» образом. Если включить в рассмотрение белки, которые есть не у всех, а только у некоторых организмов (например, только у эукариот), результаты остаются такими же, потому что новые типы белков так или иначе должны были возникать в разных эволюционных линиях — независимо от того, имели ли эти линии единое или разное происхождение. Данная работа, конечно, не является окончательным решением поставленной проблемы — скорее, ее нужно рассматривать как первый шаг. Полностью исключить все возможные альтернативные интерпретации полученных результатов довольно трудно. Для этого понадобится более детальное знание закономерностей эволюции белков и еще более сложные статистические методы. Источники: Вернуться назад |