Главная страница Учебные материалы

МАТЕМАТИЧЕСКИЕ МОДЕЛИ СИНТЕЗА ПЕПТИДНЫХ ЦЕПЕЙ И МЕТОДЫ ТЕОРИИ ГРАФОВ В РАСШИФРОВКЕ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
В.А.Таланов

Содержание

1. Исторические сведения
2. Основные понятия
3. Генетический код
4. Математическая модель формирования генетического кода
5. Сопоставление модели генетического кодирования с естественными таблицами кодирования
6. Пример использования теории графов в расшифровке генетических текстов
7. Некоторые количественные данные о естественных генетических текстах

1. Исторические сведения

В жизнедеятельности живой клетки любого организма можно выделить два важнейших процесса: деление клетки и синтез белка. Эти процессы во всех организмах и частях организма удивительно схожи. Схожесть определяется химической структурой того строительного материала, из которого состоит живая материя. Этой же структурой определяется и то, что живая материя производит себе подобную.

История раскрытия тайн существования живых организмов в современном его понимании представляет собой сплав модельных построений и экспериментальных исследований. Особое впечатление производит раскрытие механизма передачи наследственной информации.

Учение о наследственности, или генетика, имеет богатую традициями историю. Многое в этой области знаний связывают с именем Менделя, хотя и до него было многое известно. Новым по сравнению с его предшественниками было то, что он скрещивал не различные виды, как его предшественники, а сорта (расы) одного вида. В своей работе он оперировал точными цифрами и понял значение абстракции: именно это и позволило сделать важные выводы. Он установил, что признаки наследуются независимо друг от друга.

Главная работа Менделя "Опыты над растительными гибридами" появилась в 1865 году, но некоторое время оставалась незамеченной пока, аналогичные выводы не были получены другими исследователями. В 1904 году в "Лекциях по эволюционной теории" Вейсман обобщил научные данные из области генетики, которые были известны к началу XX века. К тому времени было понято, что разгадку тайн наследственности следует искать в молекулах. Но только через полвека наука приблизилась к решению данной проблемы. В 1944 году Эвери, Мак-Леод и Мак-Карти показали что носителем наследственной информации являются молекулы дезоксирибонуклеиновой (ДНК) и рибонуклеиновой (РНК) кислот [2-8].

Основная догма современной молекулярной генетики заключается в том, что наследственная информация в живом организме передается от ДНК к РНК, затем к белку.

Современное представление о механизме передачи этой информации сформировалось в 1950-е 1960-е годы на основе многочисленных экспериментальных данных и модельных построений. Существенную роль в понимании таких процессов как транскрипция (копирование молекулы ДНК) и трансляция (синтез белка) сыграла модель, которая широко известна как двойная спираль Уотсона - Крика (1953).

2. Основные понятия

Всякая живая клетка состоит из двух основных частей 1) ядра, содержащего хромосомы - носители наследственной информации, и 2) цитоплазмы, которая составляет основную массу клетки и содержит ферменты, катализирующие различные биохимические реакции, необходимые для развития и выживания организма.

В настоящее время считается неопровержимым тот факт, что наследственная информация заключена в нуклеотидной последовательности молекул ДНК, содержащихся в хромосомах.

Г.Гамов в своей статье "Комбинаторные принципы в генетике" проводит аналогию между живой клеткой и заводом. Ядро он уподобляет дирекции, а хромосомы - помещениям для хранения чертежей и планов будущей продукции. Ферменты играют в свою очередь роль рабочих и рабочего инструмента, выполняющих различные задания согласно распоряжениям дирекции.

К моменту написания Г.Гамовым этой статьи уже было высказано предположение о том, что последовательность аминокислотных остатков в белковых молекулах определяется последовательностью троек нуклеотидов (триплетов) в молекулах нуклеиновой кислоты.

В 1961 году, через десять лет после того как Г.Гамовым сделано предположение о триплетности кода, появились статьи С.Очоа и М.У.Ниренберга, в которых путем серии экспериментов и статистической обработки их результатов устанавливалась корреляция между тройками нуклеотидов в РНК и аминокислотными остатками, тем самым подтверждалась триплетная гипотеза.

В соответствии с моделью Ф.Крика первичная структура молекулы ДНК может быть описана в виде текста (слова) в четырех-буквенном алфавите T,C,A,G (первые буквы в латинских названиях соответствующих нуклеотидов - тимин, цитозин, аденин, гуанин), представляющего последовательность нуклеотидов в, так называемой, кодирующей цепи молекулы. Сама молекула состоит из двух нуклеотидных цепей, скрученных в виде спирали (примерно 10 нуклеотидов на один виток), таким образом, что тимин одной цепи оказывается рядом с аденином другой, аналогично рядом оказываются цитозин и гуанин. Находящиеся друг возле друга нуклеотиды связаны так называемыми водородными связями. Поэтому пары нуклеотидов (T,A) и (C,G) называются комплементарными.

Поскольку последовательность нуклеотидов в одной цепи полностью определяется их последовательностью в другой, то молекулу, обычно, представляют одной из этих цепей. Заметим, что каждая цепь ориентирована, то есть химическим путем один конец можно отличить от другого и в двойной спирали Ф.Крика комплементарные цепи ориентированы навстречу друг другу.

Некоторые бактерии и вирусы хранят свою информацию в нуклеотидной последовательности молекулы РНК, алфавит которой отличается от алфавита ДНК тем, что вместо тимина (Т) используется урацил (U).

С другой стороны, белковые молекулы можно рассматривать как цепочки аминокислотных остатков. Хотя в природе существует много различных аминокислот, в белках встречаются, обычно, только 20 из них, составляющих так называемый стандартный набор.

Ala - аланин, Arg - аргинин,
Asn - аспаргин, Asp - аспаргиновая кислота,
Cys - цистеин, Gln - глутамин,
Glu - глутаминовая кислота, Gly - глицин,
His - гистидин, Ile - изолейцин,
Leu - лейцин, Lys - лизин,
Met - метионин, Phe - фенилаланин,
Pro - пролин, Ser - серин,
Tre - треонин, Trp - триптофан,
Tyr - тирозин, Val - валин.

Таким образом, вопрос заключается в том, каким образом текст в 20-ти буквенном алфавите аминокислотных остатков кодируется текстом в 4-х буквенном алфавите нуклеотидов.

Молекулу ДНК, в первом чтении, можно представлять разбитой на участки. Одни из этих участков, называемые цистронами, несут информацию о последовательности аминокислотных остатков в соответствующих белковых цепях или о последовательностях нуклеотидов в молекулах тРНК, которые играют важную роль в процессе синтеза белка. Роль межцистронных участков пока не имеет ясного описания. Выяснение роли этих участков представляет одну из задач современной молекулярной биологии.

В свою очередь, цистрон состоит из кодирующих участков и участков, называемых интронами, роль которых в настоящее время не вполне выяснена.

Процесс синтеза белка предваряется процессом транскрипции, который в несколько упрощенном виде можно представлять как снятие копии с фрагмента молекулы ДНК называемого цистроном, с заменой тимина на урацил. Цистрон после процесса дозревания (удаления участков, называемых интронами) превращается в ген (молекулу матричной РНК).

Установлено, что тройки подряд идущих нуклеотидов в матричной РНК, называемые кодонами, на которые можно разбить ген, однозначно определяют последовательность аминокислотных остатков в синтезируемом белке.

Классические, "чисто" математические модели универсального биологического кодирования восходят к работам Г.Гамова, С.Голомба, М.Денбрюка и др. [9-10] и, как выяснилось впоследствии, оказались не адекватными. В настоящее время таблица кодирования, то есть соответствие между кодонами и аминокислотными остатками, достаточно точно объясняется гипотезой неоднозначного соответствия (wobble-гипотезой) Ф.Крика, основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально.

В процессе синтеза белка участвуют: матричная РНК, транспортная РНК и особая химическая структура, называемая рибосомой. Строительным материалом являются аминокислотные остатки перечисленных выше 20-и аминокислот.

Мы опишем процесс синтеза белка на модельном уровне с той степенью подробности, который представляется нам важным с точки зрения исследования этого процесса методами дискретной математики.

Кодон - последовательность из трех нуклеотидов, являющаяся фрагментом цепи в матричной РНК, саму цепь можно рассматривать как последовательность кодонов. Всего различных кодонов может быть 4*4*4=64. Перечислим некоторые из них: AAU, AAC, AAA, AAG и так далее. Длина цепи матричной РНК может составлять от нескольких сотен до нескольких тысяч нуклеотидов.

Молекула тРНК - цепочка из 70-90 нуклеотидов, принимающая в пространстве специфическую форму ("клеверный лист"). Особенностью тРНК является то, что наряду со стандартными нуклеотидами U,C,A,G в ней могут встречаться и нестандартные, такие как инозин (I). Список нестандартных нуклеотидов достаточно большой (в [11] приводятся структурные формулы 79 нестандартных нуклеотидов), однако, сведения о их роли в синтезе белка не достаточно систематизированы. Мы при модельных построениях ограничимся рассмотрением лишь одного нестандартного нуклеотида - инозина (I).

В свою очередь, количество различных молекул тРНК составляет несколько сотен. Биологи постоянно обнаруживают их разновидности. Один из трехэлементных фрагментов молекулы играет особую роль в процессе синтеза, он является антикодоном-акцептором. Каждая разновидность молекул тРНК "предназначена" для "переноса" остатков какой-либо одной аминокислоты.

Так для переноса серина (ser) при синтезе белка в митохондриях человека используется тРНК, первичная структура которой определяется первичной структурой ее гена, расположенного с 2968 по 3050 нуклеотид в геноме.

GGAAAAAUAGUUCUAAUUGGUAAGAAGGAUACUU GCU ACGUAUCUGGUGAAUAACCUUGUGAGUUCGA GUCUCACUUUUUCCG

На 35-37 местах этой последовательности расположены нуклеотиды G,C,U, образующие антикодон-акцептор.

Полипептидная цепь - последовательность аминокислотных остатков, служащая основой при образовании белков.

Основные этапы синтеза белка: Молекула тРНК находит свой аминокислотный остаток, соединяется с ним и ожидает, когда очередной кодон мРНК окажется в некотором смысле комплементарным ее антикодону-акцептору. При наступлении такого момента кодон мРНК и антикодон вступают во взаимодействие при этом аминокислотный остаток, принесенный молекулой тРНК, присоединяется к уже синтезированному участку полипептидной цепи, а мРНК готовит свой очередной кодон к принятию следующего аминокислотного остатка. Синтез белка заканчивается, когда очередные три нуклеотида в мРНК представляют один из так называемых стоп-кодонов.

3.Генетический код

Экспериментально показано, что в процессе синтеза белка в ядре клетки очередной кодон мРНК однозначно определяет аминокислоту в соответствии с некоторой таблицей кодирования, которая в дальнейшем будет называться универсальной.

Универсальная таблица кодирования
phe uuu uuc фенилаланин
leu uua uug лейцин
ser ucu ucc uca ucg cерин
tyr uau uac тирозин
trm uaa uag стоп-кодон
cys ugu ugc цистеин
trm uga стоп-кодон
trp ugg триптофан
leu cuu cuc cua cug лейцин
pro ccu ccc cca ccg пролин
his cau cac гистидин
gln caa cag глутамин
arg cgu cgc cga cgg аргинин
ile auu auc aua изолейцин
met aug метионин
thr acu acc aca acg треонин
asn aau aac аспаргин
lis aaa aag лизин
ser agu agc серин
arg aga agg аргинин
val guu guc gua gug валин
ala gcu gcc gca gcg аланин
asp gau gac аспаргиновая кислота
glu gaa gag глутамин
gly ggu ggc gga ggg глицин

Однако, синтез белка происходит не только в ядре клетки, но также и в митохондриях, причем таблицы кодирования в митохондриях разных организмов несколько отличаются от универсальной таблицы и друг от дру га.

Структура этих таблиц объясняется отчасти некоторыми особенностями упомянутого выше кодон-антикодонного взаимодействия. Эти особенности сформулированы в гипотезе неоднозначного соответствия (wobble-гипотезе) Ф.Крика основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально. Но возникает вопрос, насколько эта гипотеза согласуется с наличием разных кодирующих таблиц.

Напомним, что стандартная комплементарность это симметричное отношение на множестве нуклеотидов, состоящее из пар (U,A), (C,G) нуклеотидов, способных вступать в межмолекулярные связи.

Наличие нестандартных нуклеотидов требует описания правил взаимодействия между стандартными и нестандартными нуклеотидами. Как выяснилось при расшифровке генетического кода эти правила не одинаковы для нуклеотидов, расположенных в разных позициях кодона (антикодона).

Для первых двух элементов кодона (антикодона) нестандартная комплементарность задается парами (U,A), (C,G), (I,C); для третьего элемента возможны дополнительные пары (G,U), (I,A), (I,U), (I,C). В этом и заключается гипотеза Ф.Крика о неоднозначном соответствии. Так, например, для кодона ACU возможными антикодонами-акцепторами могут быть тройки UGA, UGG, UGI, UIA, UIG, UII. Здесь мы, следуя Ф.Крику, ограничились пятью нуклеотидами.

4. Математическая модель формирования генетического кода

Для полного представления и исследования информации о кодон-антикодонном взаимодействии мы будем строить двудольные графы. Вершинами первой доли будут кодоны из мРНК, а второй доли - возможные антикодоны из тРНК. Ребра графа будут отражать взаимодействие кодона с антикодоном. Но прежде чем это сделать, выпишем те предположения, на основе которых мы строим свои рассуждения.

Естественно механизм кодирования рассматривать как двухступенчатый. На первой ступени тРНК узнает аминокислотный остаток, а на второй - ее антикодон-акцептор узнает соответствующий ему кодон в мРНК.

При этом в соответствии с современными представлениями молекулярной генетики естественно сделать следующие предположения.
1. По каждой тРНК однозначно определяется входящий в ее состав антикодон-акцептор.
2. Каждая тРНК всей своей индивидуальностью однозначно определяет присоединяющийся к ней аминокислотный остаток.
3. Узнавание антикодона-акцептора кодоном из мРНК происходит согласно wobble-гипотезе.

Итак, определим:
(1) отображение f, которое молекуле тРНК x ставит в соответствии аминокислоту f(x);
(2) отображение g, которое молекуле тРНК x ставит в соответствие ее антикодон-акцептор g(x);
(3) отношение Compl - отношение комплементарности между кодонами и антикодонами согласно wobble-гипотезе.

При таких предположениях таблица кодирования аминокислот кодонами полностью определяется следующим правилом:
Кодон a кодирует аминокислоту b тогда и только тогда, когда существует тРНК x такая, что b=f(x) и антикодон g(x) комплементарен кодону a. На основании выше изложенного составим таблицу взаимодействия кодонов с возможными антикодонами.

uuu phe phe aaa aag aai
uuc phe phe aag aai
uua leu leu aau aai
uug leu leu aac aau
ucu ser ser aga agg agi aia aig aii
ucc ser ser agg agi aig aii
uca ser ser agu agi aiu aii
ucg ser ser agc agu aic aiu
uau tyr tyr aua aug aui
uac tyr tyr aug aui
uaa trm trm auu aui
uag trm trm auc auu
ugu cys cys aca acg aci
ugc cys cys acg aci
* uga trm trp acu aci
ugg trp trp acc acu
cuu leu leu gaa gag gai iaa iag iai
cuc leu leu gag gai iag iai
cua leu leu gau gai iau iai
cug leu leu gac gau iac iau
ccu pro pro gga ggg ggi gia gig gii iga igg igi iia iig iii
ccc pro pro ggg ggi gig gii igg igi iig iii
cca pro pro ggu ggi giu gii igu igi iiu iii
ccg pro pro ggc ggu gic giu igc igu iic iiu
cau his his gua gug gui iua iug iui
cac his his gug gui iug iui
caa gln gln guu gui iuu iui
cag gln gln guc guu iuc iuu
cgu arg arg gca gcg gci ica icg ici
cgc arg arg gcg gci icg ici
cga arg arg gcu gci icu ici
cgg arg arg gcc gcu icc icu
auu ile ile uaa uag uai
auc ile ile uag uai
* aua ile met uau uai
aug met met uac uau
acu thr thr uga ugg ugi uia uig uii
acc thr thr ugg ugi uig uii
aca thr thr ugu ugi uiu uii
acg thr thr ugc ugu uic uiu
aau asn asn uua uug uui
aac asn asn uug uui
aaa lis lis uuu uui
aag lis lis uuc uuu
agu ser ser uca ucg uci
agc ser ser ucg uci
* aga arg trm ucu uci
* agg arg trm ucc ucu
guu val val caa cag cai
guc val val cag cai
gua val val cau cai
gug val val cac cau
gcu ala ala cga cgg cgi cia cig cii
gcc ala ala cgg cgi cig cii
gca ala ala cgu cgi ciu cii
gcg ala ala cgc cgu cic ciu
gau asp asp cua cug cui
gac asp asp cug cui
gaa glu glu cuu cui
gag glu glu cuc cuu
ggu gly gly cca ccg cci
ggc gly gly ccg cci
gga gly gly ccu cci
ggg gly gly ccc ccu

В первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам. Знаком * отмечены строки, в которых имеются различия в в универсальном коде и коде митохондрий.

5. Сопоставление модели генетического кодирования с естественными таблицами кодирования

С помощью таблицы кодон-антикодонного взаимодействия построим два двудольных графа D и DI, изображающие отношение комплементарности между кодонами и антикодонами в первом и во втором случаях. В графе DI вершинами первой доли являются 64 кодона, построенных из нуклеотидов U,C,A,G, а вершинами второй - 125 триплетов, которые предположительно могут играть роль антикодонов-акцепторов и в которые кроме U,C,A,G может входить нестандартный (минорный) нуклеотид I. Кодон первой доли связан ребром с триплетом второй доли, если они комплементарны в соответствии с wobble-гипотезой.

Граф D отличается от DI тем, что вторая доля состоит, как и первая, из 64 триплетов, не использующих нестандартный нуклеотид I.

Легко видеть, что граф D распадается на 32 компоненты связности, а граф DI на 16.

Каждая компонента связности в графе DI содержит 4 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из четырех.

Каждая компонента связности в графе D содержит 2 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из U,C, либо любой из A,G.

Кодоны первой доли, входящие в одну компоненту связности графа D (DI), будем называть D-эквивалентными (соответственно, DI-эквивалентными).

Наряду с D и DI эквивалентностями рассмотрим R-эквивалентность, при которой эквивалентными считаются кодоны, детерминирующие одну и ту же аминокислоту в соответствии с универсальным генетическим кодом и аналогично RM-эквивалентность, порождаемую кодом митохондрий человека.

Сравнение введенных D и RM-эквивалентностей, показывает, что разбиение D является подразбиением разбиения RM, это означает, что для реализации кода митохондрий человека достаточно существования тРНК с антикодонами-акцепторами, построенными из четырех нуклеотидов U,C,A,G. Аналогичный вывод можно сделать и для дрожжевых митохондрий.

Рассмотрим фрагмент таблицы, описывающей кодон-антикодонное взаимодействие, в которой в первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам.

AUU Ile Ile - UAA UAG UAI
AUC Ile Ile - UAG UAI
AUA Ile Met - UAU UAI
AUG Met Met - UAC UAU

Анализ этой таблицы показывает, что возможное присутствие в антикодонах-акцепторах нестандартных нуклеотидов может привести к противоречию гипотезы Ф.Крика с таблицей кодирования митохондрий. Так возможное наличие тРНК с антикодоном UAI привело бы к неоднозначности Ile, Met. С другой стороны, наличие нестандартного нуклеотида I хорошо согласуется с так называемый универсальный таблицей кодирования. Так как тот же антикодон UAI комплементарен кодонам AUC, AUA, AUG, кодирующим одну и ту же аминокислоту Ile. Но, в то же время, антикодон UAU нарушает однозначность универсального кода.

При сопоставлении графа DI и универсального биологического кода можно обнаружить, что существует десять таких триплетов, способных подобно антикодону UAU нарушить однозначность универсального кода. Такими триплетами являются, например, ACU (он комплементарен одновременно терминирующему кодону UGA и кодону, определяющему Trp), UUI (комплементарен кодонам AAU,AAC, определяющим Asn, и кодону AAA, определяющему Lis).

Приведем полный их перечень с указанием неоднозначности.

AAI - Phe,Leu AUI - Tyr,Term ACI - Cys,Term
IUI - His,Gln GUI - His,Gln UUI - Asn,Lys
UCI - Ser,Arg CUI - Asp,Gln UAU - Ile,Met
ACU - Term,Trp.    

Как отмечалось в [10] коллизия, которая может возникнуть в связи с появлением таких антикодонов гипотетически может быть разрешена тем, что кодоны, комплементарные таким антикодонам, не встречаются в экзонах (с учетом рамки считывания).

Здесь мы хотим обратить внимание на то, что есть по крайней мере два варианта модификации гипотезы качаний, которые могли бы снять возможные сомнения в универсальности кодирующей таблицы.

Первый вариант нестандартной комплементарности для третьего нуклеотида - [U,G],[I,U],[I,C]. Второй вариант - [U,G],[I,A].

Вопрос о том, как разрешается эта коллизия в природе, повидимому, открыт. Убедительное решение вопроса об универсальности кода требует более тщательных экспериментов в рамках старых модельных построений и не снимает заботу о формирования новых моделей.

В заключение заметим, что рассмотренная модель позволяет объяснить существование различных таблиц кодирования белков молекулами мРНК и, повидимому, позволяет спланировать эксперименты по уточнению wobble-гипотезы, поискам убедительных доказательств однозначности кодирования или наоборот обнаружения случаев его неоднозначности.

6. Пример использования теории графов в расшифровке генетических текстов

Поскольку естественные нуклеотидные последовательности имеют слишком большую длину для того, чтобы непосредственно биохимическими методами устанавливать нуклеотидный состав цепочек и последовательность нуклеотидов (десятки и сотни тысяч нуклеотидов), разработаны методы, связанные с разрезанием цепочек на короткие фрагменты с последующей их расшифровкой биохимическими методами и составлением этих фрагментов в исходную последовательность.

Предпосылкой для такого подхода расшифровки является существование специальных ферментов, называемых рестриктазами, способных расщеплять нуклеотидные цепочки в определенных местах. Например, рестриктаза с названием EcorI "обнаружив" в цепочке фрагмент GAATTC разрезает ее между первым и вторым нуклеотидом фрагмента. Перечислим несколько находящихся в арсенале биохимии рестриктаз с их названиями:

HhaI - GCC*C HindIII - A*AGCTT
HpaI - GTT*AAC HpaII - C*CGG
MboI - *GATC MnoI - C*CGG

Знаком * указано место разрезания.

Опишем кратко основную идею этого метода на искусственном примере [9]. Предположим, что нам известна длина N всей последовательности и количество вхождений в эту последовательность нуклеотидов U,C,A,G. Пусть это будут, соответственно, числа N1, N2, N3, N4, тогда возможных цепочек в такой ситуации может быть

K = N!/(N1!*N2!*N3!*N4!).

Рассмотрим для примера последовательность

CCGAUCGGC.

Здесь N=9, N1=1, N2=4, N3=1, N4=3, K=2520.

Допустим, что некоторая рестриктаза режет на фрагменты, окачивающиеся на G. После ее использования получим фрагменты CCG, AUCG, G, C; назовем их G-фрагментами. G-фрагменты можно упорядочить 4! способами. В действительности, мы можем рассматривать только 3! вариантов поскольку один из полученных фрагментов не кончается на G и поэтому должен быть последним в цепочке.

Далее, допустим, что есть рестриктаза, которая разрезает цепочку на фрагменты, окачивающиеся на C или U. С ее помощью получим фрагменты C, C, GAU, C, GGC. Число различных последовательностей, которые можно составить из этих фрагментов равно 5!/3! = 20.

Рассмотрим 3!=6 вариантов упорядочения G-фрагментов.

CCGAUCGGC,
CCGGAUCGC,
AUCGCCGGC,
AUCGGCCGC,
GCCGAUCGC,
GAUCGCCGC.

Очевидно, из них только первый можно рассматривать как последовательность U,C-фрагментов. Итак, зная U,C-фрагменты и G-фрагменты можно однозначно определить последовательность нуклеотидов в исходной цепочке.

Пусть рестриктаза A разбивает некоторую цепочку на A-фрагменты, а рестриктаза B - на B-фрагменты и пусть эти фрагменты расшифрованы, но не известен порядок, в котором они уложены в исходной цепочке. В таком случае можно построить граф G(A,B), в котором вершинами являются A-фрагменты и B-фрагменты. Между A-фрагментом и B-фрагментом есть ребро в том и только в том случае, когда эти фрагменты перекрываются. Вопрос о непротиворечивости информации о фрагментах равносилен вопросу об интервальности графа, то есть вопросу является ли этот граф графом пересечений некоторых интервалов на отрезке прямой.

7. Некоторые количественные данные о естественных генетических текстах

Объем генетической информации в организме можно представить количеством пар нуклеотидов на одну клетку. Для примера приведем имеющиеся в литературе оценки на размер генома некоторых организмов. Размеры геномов приведены в миллионах пар нуклеотидов.

Бактерии 5
Дрожжи 15
Курица 1000
Мышь 3000
Человек 3000
Кукуруза 15000
Саламандра 90000
Лилия 90000

Приведем некоторые статистические данные по геному одного из ивестных вирусов (HIVH3CG)

Общее количество нуклеотидов n=9749 из них

U - 2168, C - 1785, A - 3432, G - 2364

или в процентах к общему числу:

U - 22%, C - 18%, A - 35%, G - 24%.

Число диграмм:

U C A G
U 553 338 690 587
C 468 421 804 92
A 713 566 1126 1026
G 433 460 812 659

Введем обозначения:
s(n1,n2) - число вхождений диграммы (n1,n2) в рассматриваемую цепочку, где n1,n2 - пара подряд идущих нуклеотидов.
s(n1),s(n2) - число вхождений нуклеотида n1, соответственно, n2 в рассматриваемую цепочку;
Отклонение от математического ожидания количества вхождений диграмм, вычисленное по формуле (s(n1,n2)*n)/(s(n1)*s(n2)) при условии независимого появления нуклеотидов в цепочке представлено в таблице 1.

Таблица 1.
U C A G
U 1.15 0.85 0.90 1.12
C 1.18 1.29 1.28 0.21
A 0.93 0.90 0.93 1.23
G 0.82 1.06 0.98 1.15

Любопытно сравнить эту таблицу с таблицей 2, в которой аналогичные данные получены для последовательности из такого же количества нуклеотидов, сгенерированной с помощью датчика псевдослучайных чисел, в которой нуклеотиды появляются с такими же частотами как в геноме HIVH3CG.

Таблица 2.
U - 2183 C - 1795 A - 3463 G - 2308
U - 22% C - 18% A - 36% G - 24%

Число диграмм

U C A G
U 502 426 726 529
C 380 337 634 444
A 765 640 1256 801
G 536 392 846 534

Отклонение от математического ожидания

U C A G
U 1.03 1.06 0.94 1.02
C 0.95 1.02 0.99 1.04
A 0.99 1.00 1.02 0.98
G 1.04 0.92 1.03 0.98

Число триплетов в геноме HIVH3CG и в искусственно сгенерированной последовательности приведено в таблицах 3 и 4.

Таблица 3. Число триплетов в геноме HIVH3CG.

UU UC UA UG CU CC CA CG AU AC AA AG GU GC GA GG
U 163 85 169 136 92 87 143 16 134 128 204 224 134 105 129 219
C 108 79 128 153 121 94 179 27 150 127 235 291 12 20 36 24
A 185 129 224 175 130 129 287 20 272 159 398 297 200 220 379 227
G 97 45 169 122 125 111 195 29 157 152 289 214 87 115 268 189

Таблица 4. Число триплетов в искусственной последовательности.

UU UC UA UG CU CC CA CG AU AC AA AG GU GC GA GG
U 117 85 184 116 100 76144 106 167 138 247 174 131 85 189 124
C 88 77 115 100 70 66 116 85 140 114 227 152 119 59 169 97
A 168 157 240 200 130 132 227 151 268 240 467 281 170 169 283 179
G 129 107 187 113 80 63 147 102 190 148 314 194 116 79 205 134

Различия в таблицах для естественной и искусственной последовательностей позволяют сделать предположение о наличии структурных закономерностей в естественном генетическом тексте. Наиболее убедительным фактом служит различие в количестве диграмм "CG" в естественной (92) и искусственной (444) цепочках.

Литература

1. Итоги науки и техники.Серия Геном человека /Том 2. Структурное исследование генома человека.Под редакцией академиков А.А.Баева, А.Д.Мирзабекова, к.б.н. Н.Н.Беляевой, М.,1994.
2. Ичас, Биологический код. Мир, М.,1971.
3. Л.Зенгбуш, Молекулярная и клеточная биология (в трех томах), Мир.,М.1982.
4. Б.Льюин, Гены. Мир,М.,1986.
5. Ф.Шапвиль.А.-Л.Энни, Биосинтез белка. Мир, М.,1977.
6. Г.Гамов, Комбинаторные принципы в генетике/Прикладная комбинаторная математика. сб. под ред. Э.Беккенбаха, Мир, М.,1968.
7. Математические проблемы в биологии/ сб.статей под ред Р.Беллмана. Мир, М., 1966.
8. tRNA: Structure, Biosinthesis, and Function Edited by Dieter Soll and Uttam RajBhandary c 1995 AmericanSociety for Microbiology, Washington, DC 20005.
9. The IMA Volumes in Mathematics and its Applications, Volume 17, F.Roberts, Applications of Combinatorics and Graph Theory to the Biological and SocialSciences, Springer-Verlag.
10. К.Г.Кирьянов, В.А.Таланов. Биологический код и гипотеза неоднозначного соответствия, Тезисы доклада, ННГУ, Н.Новгород, 1997 (в печати).


Главная страница Учебные материалы