aver

МАТЕМАТИЧЕСКИЕ МОДЕЛИ СИНТЕЗА ПЕПТИДНЫХ ЦЕПЕЙ И МЕТОДЫ ТЕОРИИ ГРАФОВ В РАСШИФРОВКЕ ГЕНЕТИЧЕСКИХ ТЕКСТОВ
В.А.Таланов

Содержание

1. Исторические сведения

2. Основные понятия

3. Генетический код

4. Математическая модель формирования генетического кода

5. Сопоставление модели генетического кодирования с естественными таблицами кодирования

6. Пример использования теории графов в расшифровке генетических текстов

7. Некоторые количественные данные о естественных генетических текстах

1. Исторические сведения

В жизнедеятельности живой клетки любого организма можно выделить два важнейших процесса: деление клетки и синтез белка. Эти процессы во всех организмах и частях организма удивительно схожи. Схожесть определяется химической структурой того строительного материала, из которого состоит живая материя. Этой же структурой определяется и то, что живая материя производит себе подобную.

История раскрытия тайн существования живых организмов в современном его понимании представляет собой сплав модельных построений и экспериментальных исследований. Особое впечатление производит раскрытие механизма передачи наследственной информации.

Учение о наследственности, или генетика, имеет богатую традициями историю. Многое в этой области знаний связывают с именем Менделя, хотя и до него было многое известно. Новым по сравнению с его предшественниками было то, что он скрещивал не различные виды, как его предшественники, а сорта (расы) одного вида. В своей работе он оперировал точными цифрами и понял значение абстракции: именно это и позволило сделать важные выводы. Он установил, что признаки наследуются независимо друг от друга.

Главная работа Менделя "Опыты над растительными гибридами" появилась в 1865 году, но некоторое время оставалась незамеченной пока, аналогичные выводы не были получены другими исследователями. В 1904 году в "Лекциях по эволюционной теории" Вейсман обобщил научные данные из области генетики, которые были известны к началу XX века. К тому времени было понято, что разгадку тайн наследственности следует искать в молекулах. Но только через полвека наука приблизилась к решению данной проблемы. В 1944 году Эвери, Мак-Леод и Мак-Карти показали что носителем наследственной информации являются молекулы дезоксирибонуклеиновой (ДНК) и рибонуклеиновой (РНК) кислот [2-8].

Основная догма современной молекулярной генетики заключается в том, что наследственная информация в живом организме передается от ДНК к РНК, затем к белку.

Современное представление о механизме передачи этой информации сформировалось в 1950-е 1960-е годы на основе многочисленных экспериментальных данных и модельных построений. Существенную роль в понимании таких процессов как транскрипция (копирование молекулы ДНК) и трансляция (синтез белка) сыграла модель, которая широко известна как двойная спираль Уотсона - Крика (1953).

2. Основные понятия

Всякая живая клетка состоит из двух основных частей 1) ядра, содержащего хромосомы - носители наследственной информации, и 2) цитоплазмы, которая составляет основную массу клетки и содержит ферменты, катализирующие различные биохимические реакции, необходимые для развития и выживания организма.

В настоящее время считается неопровержимым тот факт, что наследственная информация заключена в нуклеотидной последовательности молекул ДНК, содержащихся в хромосомах.

Г.Гамов в своей статье "Комбинаторные принципы в генетике" проводит аналогию между живой клеткой и заводом. Ядро он уподобляет дирекции, а хромосомы - помещениям для хранения чертежей и планов будущей продукции. Ферменты играют в свою очередь роль рабочих и рабочего инструмента, выполняющих различные задания согласно распоряжениям дирекции.

К моменту написания Г.Гамовым этой статьи уже было высказано предположение о том, что последовательность аминокислотных остатков в белковых молекулах определяется последовательностью троек нуклеотидов (триплетов) в молекулах нуклеиновой кислоты.

В 1961 году, через десять лет после того как Г.Гамовым сделано предположение о триплетности кода, появились статьи С.Очоа и М.У.Ниренберга, в которых путем серии экспериментов и статистической обработки их результатов устанавливалась корреляция между тройками нуклеотидов в РНК и аминокислотными остатками, тем самым подтверждалась триплетная гипотеза.

В соответствии с моделью Ф.Крика первичная структура молекулы ДНК может быть описана в виде текста (слова) в четырех-буквенном алфавите T,C,A,G (первые буквы в латинских названиях соответствующих нуклеотидов - тимин, цитозин, аденин, гуанин), представляющего последовательность нуклеотидов в, так называемой, кодирующей цепи молекулы. Сама молекула состоит из двух нуклеотидных цепей, скрученных в виде спирали (примерно 10 нуклеотидов на один виток), таким образом, что тимин одной цепи оказывается рядом с аденином другой, аналогично рядом оказываются цитозин и гуанин. Находящиеся друг возле друга нуклеотиды связаны так называемыми водородными связями. Поэтому пары нуклеотидов (T,A) и (C,G) называются комплементарными.

Поскольку последовательность нуклеотидов в одной цепи полностью определяется их последовательностью в другой, то молекулу, обычно, представляют одной из этих цепей. Заметим, что каждая цепь ориентирована, то есть химическим путем один конец можно отличить от другого и в двойной спирали Ф.Крика комплементарные цепи ориентированы навстречу друг другу.

Некоторые бактерии и вирусы хранят свою информацию в нуклеотидной последовательности молекулы РНК, алфавит которой отличается от алфавита ДНК тем, что вместо тимина (Т) используется урацил (U).

С другой стороны, белковые молекулы можно рассматривать как цепочки аминокислотных остатков. Хотя в природе существует много различных аминокислот, в белках встречаются, обычно, только 20 из них, составляющих так называемый стандартный набор.

Ala - аланин,	Arg - аргинин,
Asn - аспаргин,	Asp - аспаргиновая кислота,
Cys - цистеин,	Gln - глутамин,
Glu - глутаминовая кислота,	Gly - глицин,
His - гистидин,	Ile - изолейцин,
Leu - лейцин,	Lys - лизин,
Met - метионин,	Phe - фенилаланин,
Pro - пролин,	Ser - серин,
Tre - треонин,	Trp - триптофан,
Tyr - тирозин,	Val - валин.

Таким образом, вопрос заключается в том, каким образом текст в 20-ти буквенном алфавите аминокислотных остатков кодируется текстом в 4-х буквенном алфавите нуклеотидов.

Молекулу ДНК, в первом чтении, можно представлять разбитой на участки. Одни из этих участков, называемые цистронами, несут информацию о последовательности аминокислотных остатков в соответствующих белковых цепях или о последовательностях нуклеотидов в молекулах тРНК, которые играют важную роль в процессе синтеза белка. Роль межцистронных участков пока не имеет ясного описания. Выяснение роли этих участков представляет одну из задач современной молекулярной биологии.

В свою очередь, цистрон состоит из кодирующих участков и участков, называемых интронами, роль которых в настоящее время не вполне выяснена.

Процесс синтеза белка предваряется процессом транскрипции, который в несколько упрощенном виде можно представлять как снятие копии с фрагмента молекулы ДНК называемого цистроном, с заменой тимина на урацил. Цистрон после процесса дозревания (удаления участков, называемых интронами) превращается в ген (молекулу матричной РНК).

Установлено, что тройки подряд идущих нуклеотидов в матричной РНК, называемые кодонами, на которые можно разбить ген, однозначно определяют последовательность аминокислотных остатков в синтезируемом белке.

Классические, "чисто" математические модели универсального биологического кодирования восходят к работам Г.Гамова, С.Голомба, М.Денбрюка и др. [9-10] и, как выяснилось впоследствии, оказались не адекватными. В настоящее время таблица кодирования, то есть соответствие между кодонами и аминокислотными остатками, достаточно точно объясняется гипотезой неоднозначного соответствия (wobble-гипотезой) Ф.Крика, основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально.

В процессе синтеза белка участвуют: матричная РНК, транспортная РНК и особая химическая структура, называемая рибосомой. Строительным материалом являются аминокислотные остатки перечисленных выше 20-и аминокислот.

Мы опишем процесс синтеза белка на модельном уровне с той степенью подробности, который представляется нам важным с точки зрения исследования этого процесса методами дискретной математики.

Кодон - последовательность из трех нуклеотидов, являющаяся фрагментом цепи в матричной РНК, саму цепь можно рассматривать как последовательность кодонов. Всего различных кодонов может быть 4*4*4=64. Перечислим некоторые из них: AAU, AAC, AAA, AAG и так далее. Длина цепи матричной РНК может составлять от нескольких сотен до нескольких тысяч нуклеотидов.

Молекула тРНК - цепочка из 70-90 нуклеотидов, принимающая в пространстве специфическую форму ("клеверный лист"). Особенностью тРНК является то, что наряду со стандартными нуклеотидами U,C,A,G в ней могут встречаться и нестандартные, такие как инозин (I). Список нестандартных нуклеотидов достаточно большой (в [11] приводятся структурные формулы 79 нестандартных нуклеотидов), однако, сведения о их роли в синтезе белка не достаточно систематизированы. Мы при модельных построениях ограничимся рассмотрением лишь одного нестандартного нуклеотида - инозина (I).

В свою очередь, количество различных молекул тРНК составляет несколько сотен. Биологи постоянно обнаруживают их разновидности. Один из трехэлементных фрагментов молекулы играет особую роль в процессе синтеза, он является антикодоном-акцептором. Каждая разновидность молекул тРНК "предназначена" для "переноса" остатков какой-либо одной аминокислоты.

Так для переноса серина (ser) при синтезе белка в митохондриях человека используется тРНК, первичная структура которой определяется первичной структурой ее гена, расположенного с 2968 по 3050 нуклеотид в геноме.

GGAAAAAUAGUUCUAAUUGGUAAGAAGGAUACUU GCU ACGUAUCUGGUGAAUAACCUUGUGAGUUCGA GUCUCACUUUUUCCG

На 35-37 местах этой последовательности расположены нуклеотиды G,C,U, образующие антикодон-акцептор.

Полипептидная цепь - последовательность аминокислотных остатков, служащая основой при образовании белков.

Основные этапы синтеза белка: Молекула тРНК находит свой аминокислотный остаток, соединяется с ним и ожидает, когда очередной кодон мРНК окажется в некотором смысле комплементарным ее антикодону-акцептору. При наступлении такого момента кодон мРНК и антикодон вступают во взаимодействие при этом аминокислотный остаток, принесенный молекулой тРНК, присоединяется к уже синтезированному участку полипептидной цепи, а мРНК готовит свой очередной кодон к принятию следующего аминокислотного остатка. Синтез белка заканчивается, когда очередные три нуклеотида в мРНК представляют один из так называемых стоп-кодонов.

3.Генетический код

Экспериментально показано, что в процессе синтеза белка в ядре клетки очередной кодон мРНК однозначно определяет аминокислоту в соответствии с некоторой таблицей кодирования, которая в дальнейшем будет называться универсальной.

Универсальная таблица кодирования

phe uuu uuc фенилаланин
leu uua uug лейцин
ser ucu ucc uca ucg cерин
tyr uau uac тирозин
trm uaa uag стоп-кодон
cys ugu ugc цистеин
trm uga стоп-кодон
trp ugg триптофан
leu cuu cuc cua cug лейцин
pro ccu ccc cca ccg пролин
his cau cac гистидин
gln caa cag глутамин
arg cgu cgc cga cgg аргинин
ile auu auc aua изолейцин
met aug метионин
thr acu acc aca acg треонин
asn aau aac аспаргин
lis aaa aag лизин
ser agu agc серин
arg aga agg аргинин
val guu guc gua gug валин
ala gcu gcc gca gcg аланин
asp gau gac аспаргиновая кислота
glu gaa gag глутамин
gly ggu ggc gga ggg глицин

Однако, синтез белка происходит не только в ядре клетки, но также и в митохондриях, причем таблицы кодирования в митохондриях разных организмов несколько отличаются от универсальной таблицы и друг от дру га.

Структура этих таблиц объясняется отчасти некоторыми особенностями упомянутого выше кодон-антикодонного взаимодействия. Эти особенности сформулированы в гипотезе неоднозначного соответствия (wobble-гипотезе) Ф.Крика основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально. Но возникает вопрос, насколько эта гипотеза согласуется с наличием разных кодирующих таблиц.

Напомним, что стандартная комплементарность это симметричное отношение на множестве нуклеотидов, состоящее из пар (U,A), (C,G) нуклеотидов, способных вступать в межмолекулярные связи.

Наличие нестандартных нуклеотидов требует описания правил взаимодействия между стандартными и нестандартными нуклеотидами. Как выяснилось при расшифровке генетического кода эти правила не одинаковы для нуклеотидов, расположенных в разных позициях кодона (антикодона).

Для первых двух элементов кодона (антикодона) нестандартная комплементарность задается парами (U,A), (C,G), (I,C); для третьего элемента возможны дополнительные пары (G,U), (I,A), (I,U), (I,C). В этом и заключается гипотеза Ф.Крика о неоднозначном соответствии. Так, например, для кодона ACU возможными антикодонами-акцепторами могут быть тройки UGA, UGG, UGI, UIA, UIG, UII. Здесь мы, следуя Ф.Крику, ограничились пятью нуклеотидами.

4. Математическая модель формирования генетического кода

Для полного представления и исследования информации о кодон-антикодонном взаимодействии мы будем строить двудольные графы. Вершинами первой доли будут кодоны из мРНК, а второй доли - возможные антикодоны из тРНК. Ребра графа будут отражать взаимодействие кодона с антикодоном. Но прежде чем это сделать, выпишем те предположения, на основе которых мы строим свои рассуждения.

Естественно механизм кодирования рассматривать как двухступенчатый. На первой ступени тРНК узнает аминокислотный остаток, а на второй - ее антикодон-акцептор узнает соответствующий ему кодон в мРНК.

При этом в соответствии с современными представлениями молекулярной генетики естественно сделать следующие предположения.
1. По каждой тРНК однозначно определяется входящий в ее состав антикодон-акцептор.
2. Каждая тРНК всей своей индивидуальностью однозначно определяет присоединяющийся к ней аминокислотный остаток.
3. Узнавание антикодона-акцептора кодоном из мРНК происходит согласно wobble-гипотезе.

Итак, определим:
(1) отображение f, которое молекуле тРНК x ставит в соответствии аминокислоту f(x);
(2) отображение g, которое молекуле тРНК x ставит в соответствие ее антикодон-акцептор g(x);
(3) отношение Compl - отношение комплементарности между кодонами и антикодонами согласно wobble-гипотезе.

При таких предположениях таблица кодирования аминокислот кодонами полностью определяется следующим правилом:
Кодон a кодирует аминокислоту b тогда и только тогда, когда существует тРНК x такая, что b=f(x) и антикодон g(x) комплементарен кодону a. На основании выше изложенного составим таблицу взаимодействия кодонов с возможными антикодонами.

uuu phe phe aaa aag aai
uuc phe phe aag aai
uua leu leu aau aai
uug leu leu aac aau
ucu ser ser aga agg agi aia aig aii
ucc ser ser agg agi aig aii
uca ser ser agu agi aiu aii
ucg ser ser agc agu aic aiu
uau tyr tyr aua aug aui
uac tyr tyr aug aui
uaa trm trm auu aui
uag trm trm auc auu
ugu cys cys aca acg aci
ugc cys cys acg aci
* uga trm trp acu aci
ugg trp trp acc acu
cuu leu leu gaa gag gai iaa iag iai
cuc leu leu gag gai iag iai
cua leu leu gau gai iau iai
cug leu leu gac gau iac iau
ccu pro pro gga ggg ggi gia gig gii iga igg igi iia iig iii
ccc pro pro ggg ggi gig gii igg igi iig iii
cca pro pro ggu ggi giu gii igu igi iiu iii
ccg pro pro ggc ggu gic giu igc igu iic iiu
cau his his gua gug gui iua iug iui
cac his his gug gui iug iui
caa gln gln guu gui iuu iui
cag gln gln guc guu iuc iuu
cgu arg arg gca gcg gci ica icg ici
cgc arg arg gcg gci icg ici
cga arg arg gcu gci icu ici
cgg arg arg gcc gcu icc icu
auu ile ile uaa uag uai
auc ile ile uag uai
* aua ile met uau uai
aug met met uac uau
acu thr thr uga ugg ugi uia uig uii
acc thr thr ugg ugi uig uii
aca thr thr ugu ugi uiu uii
acg thr thr ugc ugu uic uiu
aau asn asn uua uug uui
aac asn asn uug uui
aaa lis lis uuu uui
aag lis lis uuc uuu
agu ser ser uca ucg uci
agc ser ser ucg uci
* aga arg trm ucu uci
* agg arg trm ucc ucu
guu val val caa cag cai
guc val val cag cai
gua val val cau cai
gug val val cac cau
gcu ala ala cga cgg cgi cia cig cii
gcc ala ala cgg cgi cig cii
gca ala ala cgu cgi ciu cii
gcg ala ala cgc cgu cic ciu
gau asp asp cua cug cui
gac asp asp cug cui
gaa glu glu cuu cui
gag glu glu cuc cuu
ggu gly gly cca ccg cci
ggc gly gly ccg cci
gga gly gly ccu cci
ggg gly gly ccc ccu

В первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам. Знаком * отмечены строки, в которых имеются различия в в универсальном коде и коде митохондрий.

5. Сопоставление модели генетического кодирования с естественными таблицами кодирования

С помощью таблицы кодон-антикодонного взаимодействия построим два двудольных графа D и DI, изображающие отношение комплементарности между кодонами и антикодонами в первом и во втором случаях. В графе DI вершинами первой доли являются 64 кодона, построенных из нуклеотидов U,C,A,G, а вершинами второй - 125 триплетов, которые предположительно могут играть роль антикодонов-акцепторов и в которые кроме U,C,A,G может входить нестандартный (минорный) нуклеотид I. Кодон первой доли связан ребром с триплетом второй доли, если они комплементарны в соответствии с wobble-гипотезой.

Граф D отличается от DI тем, что вторая доля состоит, как и первая, из 64 триплетов, не использующих нестандартный нуклеотид I.

Легко видеть, что граф D распадается на 32 компоненты связности, а граф DI на 16.

Каждая компонента связности в графе DI содержит 4 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из четырех.

Каждая компонента связности в графе D содержит 2 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из U,C, либо любой из A,G.

Кодоны первой доли, входящие в одну компоненту связности графа D (DI), будем называть D-эквивалентными (соответственно, DI-эквивалентными).

Наряду с D и DI эквивалентностями рассмотрим R-эквивалентность, при которой эквивалентными считаются кодоны, детерминирующие одну и ту же аминокислоту в соответствии с универсальным генетическим кодом и аналогично RM-эквивалентность, порождаемую кодом митохондрий человека.

Сравнение введенных D и RM-эквивалентностей, показывает, что разбиение D является подразбиением разбиения RM, это означает, что для реализации кода митохондрий человека достаточно существования тРНК с антикодонами-акцепторами, построенными из четырех нуклеотидов U,C,A,G. Аналогичный вывод можно сделать и для дрожжевых митохондрий.

Рассмотрим фрагмент таблицы, описывающей кодон-антикодонное взаимодействие, в которой в первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам.

AUU	Ile	Ile	- UAA UAG UAI
AUC	Ile	Ile	- UAG UAI
AUA	Ile	Met	- UAU UAI
AUG	Met	Met	- UAC UAU

Анализ этой таблицы показывает, что возможное присутствие в антикодонах-акцепторах нестандартных нуклеотидов может привести к противоречию гипотезы Ф.Крика с таблицей кодирования митохондрий. Так возможное наличие тРНК с антикодоном UAI привело бы к неоднозначности Ile, Met. С другой стороны, наличие нестандартного нуклеотида I хорошо согласуется с так называемый универсальный таблицей кодирования. Так как тот же антикодон UAI комплементарен кодонам AUC, AUA, AUG, кодирующим одну и ту же аминокислоту Ile. Но, в то же время, антикодон UAU нарушает однозначность универсального кода.

При сопоставлении графа DI и универсального биологического кода можно обнаружить, что существует десять таких триплетов, способных подобно антикодону UAU нарушить однозначность универсального кода. Такими триплетами являются, например, ACU (он комплементарен одновременно терминирующему кодону UGA и кодону, определяющему Trp), UUI (комплементарен кодонам AAU,AAC, определяющим Asn, и кодону AAA, определяющему Lis).

Приведем полный их перечень с указанием неоднозначности.

AAI - Phe,Leu	AUI - Tyr,Term	ACI - Cys,Term
IUI - His,Gln	GUI - His,Gln	UUI - Asn,Lys
UCI - Ser,Arg	CUI - Asp,Gln	UAU - Ile,Met
ACU - Term,Trp.

Как отмечалось в [10] коллизия, которая может возникнуть в связи с появлением таких антикодонов гипотетически может быть разрешена тем, что кодоны, комплементарные таким антикодонам, не встречаются в экзонах (с учетом рамки считывания).

Здесь мы хотим обратить внимание на то, что есть по крайней мере два варианта модификации гипотезы качаний, которые могли бы снять возможные сомнения в универсальности кодирующей таблицы.

Первый вариант нестандартной комплементарности для третьего нуклеотида - [U,G],[I,U],[I,C]. Второй вариант - [U,G],[I,A].

Вопрос о том, как разрешается эта коллизия в природе, повидимому, открыт. Убедительное решение вопроса об универсальности кода требует более тщательных экспериментов в рамках старых модельных построений и не снимает заботу о формирования новых моделей.

В заключение заметим, что рассмотренная модель позволяет объяснить существование различных таблиц кодирования белков молекулами мРНК и, повидимому, позволяет спланировать эксперименты по уточнению wobble-гипотезы, поискам убедительных доказательств однозначности кодирования или наоборот обнаружения случаев его неоднозначности.

6. Пример использования теории графов в расшифровке генетических текстов

Поскольку естественные нуклеотидные последовательности имеют слишком большую длину для того, чтобы непосредственно биохимическими методами устанавливать нуклеотидный состав цепочек и последовательность нуклеотидов (десятки и сотни тысяч нуклеотидов), разработаны методы, связанные с разрезанием цепочек на короткие фрагменты с последующей их расшифровкой биохимическими методами и составлением этих фрагментов в исходную последовательность.

Предпосылкой для такого подхода расшифровки является существование специальных ферментов, называемых рестриктазами, способных расщеплять нуклеотидные цепочки в определенных местах. Например, рестриктаза с названием EcorI "обнаружив" в цепочке фрагмент GAATTC разрезает ее между первым и вторым нуклеотидом фрагмента. Перечислим несколько находящихся в арсенале биохимии рестриктаз с их названиями:

HhaI - GCC*C HindIII - A*AGCTT

HpaI - GTT*AAC HpaII - C*CGG

MboI - *GATC MnoI - C*CGG

Знаком * указано место разрезания.

Опишем кратко основную идею этого метода на искусственном примере [9]. Предположим, что нам известна длина N всей последовательности и количество вхождений в эту последовательность нуклеотидов U,C,A,G. Пусть это будут, соответственно, числа N₁, N₂, N₃, N₄, тогда возможных цепочек в такой ситуации может быть

K = N!/(N₁!*N₂!*N₃!*N₄!).

Рассмотрим для примера последовательность

CCGAUCGGC.

Здесь N=9, N₁=1, N₂=4, N₃=1, N₄=3, K=2520.

Допустим, что некоторая рестриктаза режет на фрагменты, окачивающиеся на G. После ее использования получим фрагменты CCG, AUCG, G, C; назовем их G-фрагментами. G-фрагменты можно упорядочить 4! способами. В действительности, мы можем рассматривать только 3! вариантов поскольку один из полученных фрагментов не кончается на G и поэтому должен быть последним в цепочке.

Далее, допустим, что есть рестриктаза, которая разрезает цепочку на фрагменты, окачивающиеся на C или U. С ее помощью получим фрагменты C, C, GAU, C, GGC. Число различных последовательностей, которые можно составить из этих фрагментов равно 5!/3! = 20.

Рассмотрим 3!=6 вариантов упорядочения G-фрагментов.

CCGAUCGGC,
CCGGAUCGC,
AUCGCCGGC,
AUCGGCCGC,
GCCGAUCGC,
GAUCGCCGC.

Очевидно, из них только первый можно рассматривать как последовательность U,C-фрагментов. Итак, зная U,C-фрагменты и G-фрагменты можно однозначно определить последовательность нуклеотидов в исходной цепочке.

Пусть рестриктаза A разбивает некоторую цепочку на A-фрагменты, а рестриктаза B - на B-фрагменты и пусть эти фрагменты расшифрованы, но не известен порядок, в котором они уложены в исходной цепочке. В таком случае можно построить граф G(A,B), в котором вершинами являются A-фрагменты и B-фрагменты. Между A-фрагментом и B-фрагментом есть ребро в том и только в том случае, когда эти фрагменты перекрываются. Вопрос о непротиворечивости информации о фрагментах равносилен вопросу об интервальности графа, то есть вопросу является ли этот граф графом пересечений некоторых интервалов на отрезке прямой.

7. Некоторые количественные данные о естественных генетических текстах

Объем генетической информации в организме можно представить количеством пар нуклеотидов на одну клетку. Для примера приведем имеющиеся в литературе оценки на размер генома некоторых организмов. Размеры геномов приведены в миллионах пар нуклеотидов.

Бактерии 5

Дрожжи 15

Курица 1000

Мышь 3000

Человек 3000

Кукуруза 15000

Саламандра 90000

Лилия 90000

Приведем некоторые статистические данные по геному одного из ивестных вирусов (HIVH3CG)

Общее количество нуклеотидов n=9749 из них

U - 2168, C - 1785, A - 3432, G - 2364

или в процентах к общему числу:

U - 22%, C - 18%, A - 35%, G - 24%.

Число диграмм:


	U	C	A	G
U	553	338	690	587
C	468	421	804	92
A	713	566	1126	1026
G	433	460	812	659

Введем обозначения:
s(n₁,n₂) - число вхождений диграммы (n₁,n₂) в рассматриваемую цепочку, где n₁,n₂ - пара подряд идущих нуклеотидов.
s(n₁),s(n₂) - число вхождений нуклеотида n₁, соответственно, n₂ в рассматриваемую цепочку;
Отклонение от математического ожидания количества вхождений диграмм, вычисленное по формуле (s(n₁,n₂)*n)/(s(n₁)*s(n₂)) при условии независимого появления нуклеотидов в цепочке представлено в таблице 1.

Таблица 1.

	U	C	A	G
U	1.15	0.85	0.90	1.12
C	1.18	1.29	1.28	0.21
A	0.93	0.90	0.93	1.23
G	0.82	1.06	0.98	1.15

Любопытно сравнить эту таблицу с таблицей 2, в которой аналогичные данные получены для последовательности из такого же количества нуклеотидов, сгенерированной с помощью датчика псевдослучайных чисел, в которой нуклеотиды появляются с такими же частотами как в геноме HIVH3CG.

Таблица 2.

U - 2183	C - 1795	A - 3463	G - 2308
U - 22%	C - 18%	A - 36%	G - 24%

Число диграмм

	U	C	A	G
U	502	426	726	529
C	380	337	634	444
A	765	640	1256	801
G	536	392	846	534

Отклонение от математического ожидания

	U	C	A	G
U	1.03	1.06	0.94	1.02
C	0.95	1.02	0.99	1.04
A	0.99	1.00	1.02	0.98
G	1.04	0.92	1.03	0.98

Число триплетов в геноме HIVH3CG и в искусственно сгенерированной последовательности приведено в таблицах 3 и 4.

Таблица 3. Число триплетов в геноме HIVH3CG.

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	163	85	169	136	92	87	143	16	134	128	204	224	134	105	129	219
C	108	79	128	153	121	94	179	27	150	127	235	291	12	20	36	24
A	185	129	224	175	130	129	287	20	272	159	398	297	200	220	379	227
G	97	45	169	122	125	111	195	29	157	152	289	214	87	115	268	189

Таблица 4. Число триплетов в искусственной последовательности.

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	117	85	184	116	100	76	144	106	167	138	247	174	131	85	189	124
C	88	77	115	100	70	66	116	85	140	114	227	152	119	59	169	97
A	168	157	240	200	130	132	227	151	268	240	467	281	170	169	283	179
G	129	107	187	113	80	63	147	102	190	148	314	194	116	79	205	134

Различия в таблицах для естественной и искусственной последовательностей позволяют сделать предположение о наличии структурных закономерностей в естественном генетическом тексте. Наиболее убедительным фактом служит различие в количестве диграмм "CG" в естественной (92) и искусственной (444) цепочках.

Литература

1. Итоги науки и техники.Серия Геном человека /Том 2. Структурное исследование генома человека.Под редакцией академиков А.А.Баева, А.Д.Мирзабекова, к.б.н. Н.Н.Беляевой, М.,1994.
2. Ичас, Биологический код. Мир, М.,1971.
3. Л.Зенгбуш, Молекулярная и клеточная биология (в трех томах), Мир.,М.1982.
4. Б.Льюин, Гены. Мир,М.,1986.
5. Ф.Шапвиль.А.-Л.Энни, Биосинтез белка. Мир, М.,1977.
6. Г.Гамов, Комбинаторные принципы в генетике/Прикладная комбинаторная математика. сб. под ред. Э.Беккенбаха, Мир, М.,1968.
7. Математические проблемы в биологии/ сб.статей под ред Р.Беллмана. Мир, М., 1966.
8. tRNA: Structure, Biosinthesis, and Function Edited by Dieter Soll and Uttam RajBhandary c 1995 AmericanSociety for Microbiology, Washington, DC 20005.
9. The IMA Volumes in Mathematics and its Applications, Volume 17, F.Roberts, Applications of Combinatorics and Graph Theory to the Biological and SocialSciences, Springer-Verlag.
10. К.Г.Кирьянов, В.А.Таланов. Биологический код и гипотеза неоднозначного соответствия, Тезисы доклада, ННГУ, Н.Новгород, 1997 (в печати).

phe	uuu uuc	фенилаланин
leu	uua uug	лейцин
ser	ucu ucc uca ucg	cерин
tyr	uau uac	тирозин
trm	uaa uag	стоп-кодон
cys	ugu ugc	цистеин
trm	uga	стоп-кодон
trp	ugg	триптофан
leu	cuu cuc cua cug	лейцин
pro	ccu ccc cca ccg	пролин
his	cau cac	гистидин
gln	caa cag	глутамин
arg	cgu cgc cga cgg	аргинин
ile	auu auc aua	изолейцин
met	aug	метионин
thr	acu acc aca acg	треонин
asn	aau aac	аспаргин
lis	aaa aag	лизин
ser	agu agc	серин
arg	aga agg	аргинин
val	guu guc gua gug	валин
ala	gcu gcc gca gcg	аланин
asp	gau gac	аспаргиновая кислота
glu	gaa gag	глутамин
gly	ggu ggc gga ggg	глицин

uuu	phe	phe	aaa aag aai
uuc	phe	phe	aag aai
uua	leu	leu	aau aai
uug	leu	leu	aac aau
ucu	ser	ser	aga agg agi aia aig aii
ucc	ser	ser	agg agi aig aii
uca	ser	ser	agu agi aiu aii
ucg	ser	ser	agc agu aic aiu
uau	tyr	tyr	aua aug aui
uac	tyr	tyr	aug aui
uaa	trm	trm	auu aui
uag	trm	trm	auc auu
ugu	cys	cys	aca acg aci
ugc	cys	cys	acg aci
* uga	trm	trp	acu aci
ugg	trp	trp	acc acu
cuu	leu	leu	gaa gag gai iaa iag iai
cuc	leu	leu	gag gai iag iai
cua	leu	leu	gau gai iau iai
cug	leu	leu	gac gau iac iau
ccu	pro	pro	gga ggg ggi gia gig gii iga igg igi iia iig iii
ccc	pro	pro	ggg ggi gig gii igg igi iig iii
cca	pro	pro	ggu ggi giu gii igu igi iiu iii
ccg	pro	pro	ggc ggu gic giu igc igu iic iiu
cau	his	his	gua gug gui iua iug iui
cac	his	his	gug gui iug iui
caa	gln	gln	guu gui iuu iui
cag	gln	gln	guc guu iuc iuu
cgu	arg	arg	gca gcg gci ica icg ici
cgc	arg	arg	gcg gci icg ici
cga	arg	arg	gcu gci icu ici
cgg	arg	arg	gcc gcu icc icu
auu	ile	ile	uaa uag uai
auc	ile	ile	uag uai
* aua	ile	met	uau uai
aug	met	met	uac uau
acu	thr	thr	uga ugg ugi uia uig uii
acc	thr	thr	ugg ugi uig uii
aca	thr	thr	ugu ugi uiu uii
acg	thr	thr	ugc ugu uic uiu
aau	asn	asn	uua uug uui
aac	asn	asn	uug uui
aaa	lis	lis	uuu uui
aag	lis	lis	uuc uuu
agu	ser	ser	uca ucg uci
agc	ser	ser	ucg uci
* aga	arg	trm	ucu uci
* agg	arg	trm	ucc ucu
guu	val	val	caa cag cai
guc	val	val	cag cai
gua	val	val	cau cai
gug	val	val	cac cau
gcu	ala	ala	cga cgg cgi cia cig cii
gcc	ala	ala	cgg cgi cig cii
gca	ala	ala	cgu cgi ciu cii
gcg	ala	ala	cgc cgu cic ciu
gau	asp	asp	cua cug cui
gac	asp	asp	cug cui
gaa	glu	glu	cuu cui
gag	glu	glu	cuc cuu
ggu	gly	gly	cca ccg cci
ggc	gly	gly	ccg cci
gga	gly	gly	ccu cci
ggg	gly	gly	ccc ccu

HhaI - GCC*C	HindIII - A*AGCTT
HpaI - GTT*AAC	HpaII - C*CGG
MboI - *GATC	MnoI - C*CGG

Бактерии	5
Дрожжи	15
Курица	1000
Мышь	3000
Человек	3000
Кукуруза	15000
Саламандра	90000
Лилия	90000

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	163	85	169	136	92	87	143	16	134	128	204	224	134	105	129	219
C	108	79	128	153	121	94	179	27	150	127	235	291	12	20	36	24
A	185	129	224	175	130	129	287	20	272	159	398	297	200	220	379	227
G	97	45	169	122	125	111	195	29	157	152	289	214	87	115	268	189

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	117	85	184	116	100	76	144	106	167	138	247	174	131	85	189	124
C	88	77	115	100	70	66	116	85	140	114	227	152	119	59	169	97
A	168	157	240	200	130	132	227	151	268	240	467	281	170	169	283	179
G	129	107	187	113	80	63	147	102	190	148	314	194	116	79	205	134

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	163	85	169	136	92	87	143	16	134	128	204	224	134	105	129	219
C	108	79	128	153	121	94	179	27	150	127	235	291	12	20	36	24
A	185	129	224	175	130	129	287	20	272	159	398	297	200	220	379	227
G	97	45	169	122	125	111	195	29	157	152	289	214	87	115	268	189

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	117	85	184	116	100	76	144	106	167	138	247	174	131	85	189	124
C	88	77	115	100	70	66	116	85	140	114	227	152	119	59	169	97
A	168	157	240	200	130	132	227	151	268	240	467	281	170	169	283	179
G	129	107	187	113	80	63	147	102	190	148	314	194	116	79	205	134

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	163	85	169	136	92	87	143	16	134	128	204	224	134	105	129	219
C	108	79	128	153	121	94	179	27	150	127	235	291	12	20	36	24
A	185	129	224	175	130	129	287	20	272	159	398	297	200	220	379	227
G	97	45	169	122	125	111	195	29	157	152	289	214	87	115	268	189

	UU	UC	UA	UG	CU	CC	CA	CG	AU	AC	AA	AG	GU	GC	GA	GG
U	117	85	184	116	100	76	144	106	167	138	247	174	131	85	189	124
C	88	77	115	100	70	66	116	85	140	114	227	152	119	59	169	97
A	168	157	240	200	130	132	227	151	268	240	467	281	170	169	283	179
G	129	107	187	113	80	63	147	102	190	148	314	194	116	79	205	134