1. Исторические сведения
В жизнедеятельности живой клетки любого организма можно выделить два важнейших процесса: деление клетки и синтез белка. Эти процессы во всех организмах и частях организма удивительно схожи. Схожесть определяется химической структурой того строительного материала, из которого состоит живая материя. Этой же структурой определяется и то, что живая материя производит себе подобную.
История раскрытия тайн существования живых организмов в современном его понимании представляет собой сплав модельных построений и экспериментальных исследований. Особое впечатление производит раскрытие механизма передачи наследственной информации.
Учение о наследственности, или генетика, имеет богатую традициями историю. Многое в этой области знаний связывают с именем Менделя, хотя и до него было многое известно. Новым по сравнению с его предшественниками было то, что он скрещивал не различные виды, как его предшественники, а сорта (расы) одного вида. В своей работе он оперировал точными цифрами и понял значение абстракции: именно это и позволило сделать важные выводы. Он установил, что признаки наследуются независимо друг от друга.
Главная работа Менделя "Опыты над растительными гибридами" появилась в 1865 году, но некоторое время оставалась незамеченной пока, аналогичные выводы не были получены другими исследователями. В 1904 году в "Лекциях по эволюционной теории" Вейсман обобщил научные данные из области генетики, которые были известны к началу XX века. К тому времени было понято, что разгадку тайн наследственности следует искать в молекулах. Но только через полвека наука приблизилась к решению данной проблемы. В 1944 году Эвери, Мак-Леод и Мак-Карти показали что носителем наследственной информации являются молекулы дезоксирибонуклеиновой (ДНК) и рибонуклеиновой (РНК) кислот [2-8].
Основная догма современной молекулярной генетики заключается в том, что наследственная информация в живом организме передается от ДНК к РНК, затем к белку.
Современное представление о механизме передачи этой информации сформировалось в 1950-е 1960-е годы на основе многочисленных экспериментальных данных и модельных построений. Существенную роль в понимании таких процессов как транскрипция (копирование молекулы ДНК) и трансляция (синтез белка) сыграла модель, которая широко известна как двойная спираль Уотсона - Крика (1953).
Всякая живая клетка состоит из двух основных частей 1) ядра, содержащего хромосомы - носители наследственной информации, и 2) цитоплазмы, которая составляет основную массу клетки и содержит ферменты, катализирующие различные биохимические реакции, необходимые для развития и выживания организма.
В настоящее время считается неопровержимым тот факт, что наследственная информация заключена в нуклеотидной последовательности молекул ДНК, содержащихся в хромосомах.
Г.Гамов в своей статье "Комбинаторные принципы в генетике" проводит аналогию между живой клеткой и заводом. Ядро он уподобляет дирекции, а хромосомы - помещениям для хранения чертежей и планов будущей продукции. Ферменты играют в свою очередь роль рабочих и рабочего инструмента, выполняющих различные задания согласно распоряжениям дирекции.
К моменту написания Г.Гамовым этой статьи уже было высказано предположение о том, что последовательность аминокислотных остатков в белковых молекулах определяется последовательностью троек нуклеотидов (триплетов) в молекулах нуклеиновой кислоты.
В 1961 году, через десять лет после того как Г.Гамовым сделано предположение о триплетности кода, появились статьи С.Очоа и М.У.Ниренберга, в которых путем серии экспериментов и статистической обработки их результатов устанавливалась корреляция между тройками нуклеотидов в РНК и аминокислотными остатками, тем самым подтверждалась триплетная гипотеза.
В соответствии с моделью Ф.Крика первичная структура молекулы ДНК может быть описана в виде текста (слова) в четырех-буквенном алфавите T,C,A,G (первые буквы в латинских названиях соответствующих нуклеотидов - тимин, цитозин, аденин, гуанин), представляющего последовательность нуклеотидов в, так называемой, кодирующей цепи молекулы. Сама молекула состоит из двух нуклеотидных цепей, скрученных в виде спирали (примерно 10 нуклеотидов на один виток), таким образом, что тимин одной цепи оказывается рядом с аденином другой, аналогично рядом оказываются цитозин и гуанин. Находящиеся друг возле друга нуклеотиды связаны так называемыми водородными связями. Поэтому пары нуклеотидов (T,A) и (C,G) называются комплементарными.
Поскольку последовательность нуклеотидов в одной цепи полностью определяется их последовательностью в другой, то молекулу, обычно, представляют одной из этих цепей. Заметим, что каждая цепь ориентирована, то есть химическим путем один конец можно отличить от другого и в двойной спирали Ф.Крика комплементарные цепи ориентированы навстречу друг другу.
Некоторые бактерии и вирусы хранят свою информацию в нуклеотидной последовательности молекулы РНК, алфавит которой отличается от алфавита ДНК тем, что вместо тимина (Т) используется урацил (U).
С другой стороны, белковые молекулы можно рассматривать как цепочки аминокислотных остатков. Хотя в природе существует много различных аминокислот, в белках встречаются, обычно, только 20 из них, составляющих так называемый стандартный набор.
Ala - аланин, | Arg - аргинин, |
Asn - аспаргин, | Asp - аспаргиновая кислота, |
Cys - цистеин, | Gln - глутамин, |
Glu - глутаминовая кислота, | Gly - глицин, |
His - гистидин, | Ile - изолейцин, |
Leu - лейцин, | Lys - лизин, |
Met - метионин, | Phe - фенилаланин, |
Pro - пролин, | Ser - серин, |
Tre - треонин, | Trp - триптофан, |
Tyr - тирозин, | Val - валин. |
Таким образом, вопрос заключается в том, каким образом текст в 20-ти буквенном алфавите аминокислотных остатков кодируется текстом в 4-х буквенном алфавите нуклеотидов.
Молекулу ДНК, в первом чтении, можно представлять разбитой на участки. Одни из этих участков, называемые цистронами, несут информацию о последовательности аминокислотных остатков в соответствующих белковых цепях или о последовательностях нуклеотидов в молекулах тРНК, которые играют важную роль в процессе синтеза белка. Роль межцистронных участков пока не имеет ясного описания. Выяснение роли этих участков представляет одну из задач современной молекулярной биологии.
В свою очередь, цистрон состоит из кодирующих участков и участков, называемых интронами, роль которых в настоящее время не вполне выяснена.
Процесс синтеза белка предваряется процессом транскрипции, который в несколько упрощенном виде можно представлять как снятие копии с фрагмента молекулы ДНК называемого цистроном, с заменой тимина на урацил. Цистрон после процесса дозревания (удаления участков, называемых интронами) превращается в ген (молекулу матричной РНК).
Установлено, что тройки подряд идущих нуклеотидов в матричной РНК, называемые кодонами, на которые можно разбить ген, однозначно определяют последовательность аминокислотных остатков в синтезируемом белке.
Классические, "чисто" математические модели универсального биологического кодирования восходят к работам Г.Гамова, С.Голомба, М.Денбрюка и др. [9-10] и, как выяснилось впоследствии, оказались не адекватными. В настоящее время таблица кодирования, то есть соответствие между кодонами и аминокислотными остатками, достаточно точно объясняется гипотезой неоднозначного соответствия (wobble-гипотезой) Ф.Крика, основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально.
В процессе синтеза белка участвуют: матричная РНК, транспортная РНК и особая химическая структура, называемая рибосомой. Строительным материалом являются аминокислотные остатки перечисленных выше 20-и аминокислот.
Мы опишем процесс синтеза белка на модельном уровне с той степенью подробности, который представляется нам важным с точки зрения исследования этого процесса методами дискретной математики.
Кодон - последовательность из трех нуклеотидов, являющаяся фрагментом цепи в матричной РНК, саму цепь можно рассматривать как последовательность кодонов. Всего различных кодонов может быть 4*4*4=64. Перечислим некоторые из них: AAU, AAC, AAA, AAG и так далее. Длина цепи матричной РНК может составлять от нескольких сотен до нескольких тысяч нуклеотидов.
Молекула тРНК - цепочка из 70-90 нуклеотидов, принимающая в пространстве специфическую форму ("клеверный лист"). Особенностью тРНК является то, что наряду со стандартными нуклеотидами U,C,A,G в ней могут встречаться и нестандартные, такие как инозин (I). Список нестандартных нуклеотидов достаточно большой (в [11] приводятся структурные формулы 79 нестандартных нуклеотидов), однако, сведения о их роли в синтезе белка не достаточно систематизированы. Мы при модельных построениях ограничимся рассмотрением лишь одного нестандартного нуклеотида - инозина (I).
В свою очередь, количество различных молекул тРНК составляет несколько сотен. Биологи постоянно обнаруживают их разновидности. Один из трехэлементных фрагментов молекулы играет особую роль в процессе синтеза, он является антикодоном-акцептором. Каждая разновидность молекул тРНК "предназначена" для "переноса" остатков какой-либо одной аминокислоты.
Так для переноса серина (ser) при синтезе белка в митохондриях человека используется тРНК, первичная структура которой определяется первичной структурой ее гена, расположенного с 2968 по 3050 нуклеотид в геноме.
GGAAAAAUAGUUCUAAUUGGUAAGAAGGAUACUU GCU ACGUAUCUGGUGAAUAACCUUGUGAGUUCGA GUCUCACUUUUUCCG
На 35-37 местах этой последовательности расположены нуклеотиды G,C,U, образующие антикодон-акцептор.
Полипептидная цепь - последовательность аминокислотных остатков, служащая основой при образовании белков.
Основные этапы синтеза белка: Молекула тРНК находит свой аминокислотный остаток, соединяется с ним и ожидает, когда очередной кодон мРНК окажется в некотором смысле комплементарным ее антикодону-акцептору. При наступлении такого момента кодон мРНК и антикодон вступают во взаимодействие при этом аминокислотный остаток, принесенный молекулой тРНК, присоединяется к уже синтезированному участку полипептидной цепи, а мРНК готовит свой очередной кодон к принятию следующего аминокислотного остатка. Синтез белка заканчивается, когда очередные три нуклеотида в мРНК представляют один из так называемых стоп-кодонов.
Экспериментально показано, что в процессе синтеза белка в ядре клетки очередной кодон мРНК однозначно определяет аминокислоту в соответствии с некоторой таблицей кодирования, которая в дальнейшем будет называться универсальной.
Универсальная таблица кодирования
phe | uuu uuc | фенилаланин |
leu | uua uug | лейцин |
ser | ucu ucc uca ucg | cерин |
tyr | uau uac | тирозин |
trm | uaa uag | стоп-кодон |
cys | ugu ugc | цистеин |
trm | uga | стоп-кодон |
trp | ugg | триптофан |
leu | cuu cuc cua cug | лейцин |
pro | ccu ccc cca ccg | пролин |
his | cau cac | гистидин |
gln | caa cag | глутамин |
arg | cgu cgc cga cgg | аргинин |
ile | auu auc aua | изолейцин |
met | aug | метионин |
thr | acu acc aca acg | треонин |
asn | aau aac | аспаргин |
lis | aaa aag | лизин |
ser | agu agc | серин |
arg | aga agg | аргинин |
val | guu guc gua gug | валин |
ala | gcu gcc gca gcg | аланин |
asp | gau gac | аспаргиновая кислота |
glu | gaa gag | глутамин |
gly | ggu ggc gga ggg | глицин |
Однако, синтез белка происходит не только в ядре клетки, но также и в митохондриях, причем таблицы кодирования в митохондриях разных организмов несколько отличаются от универсальной таблицы и друг от дру га.
Структура этих таблиц объясняется отчасти некоторыми особенностями упомянутого выше кодон-антикодонного взаимодействия. Эти особенности сформулированы в гипотезе неоднозначного соответствия (wobble-гипотезе) Ф.Крика основанной на стереохимическом анализе молекулярных моделей и подтверждающейся экспериментально. Но возникает вопрос, насколько эта гипотеза согласуется с наличием разных кодирующих таблиц.
Напомним, что стандартная комплементарность это симметричное отношение на множестве нуклеотидов, состоящее из пар (U,A), (C,G) нуклеотидов, способных вступать в межмолекулярные связи.
Наличие нестандартных нуклеотидов требует описания правил взаимодействия между стандартными и нестандартными нуклеотидами. Как выяснилось при расшифровке генетического кода эти правила не одинаковы для нуклеотидов, расположенных в разных позициях кодона (антикодона).
Для первых двух элементов кодона (антикодона) нестандартная комплементарность задается парами (U,A), (C,G), (I,C); для третьего элемента возможны дополнительные пары (G,U), (I,A), (I,U), (I,C). В этом и заключается гипотеза Ф.Крика о неоднозначном соответствии. Так, например, для кодона ACU возможными антикодонами-акцепторами могут быть тройки UGA, UGG, UGI, UIA, UIG, UII. Здесь мы, следуя Ф.Крику, ограничились пятью нуклеотидами.
Для полного представления и исследования информации о кодон-антикодонном взаимодействии мы будем строить двудольные графы. Вершинами первой доли будут кодоны из мРНК, а второй доли - возможные антикодоны из тРНК. Ребра графа будут отражать взаимодействие кодона с антикодоном. Но прежде чем это сделать, выпишем те предположения, на основе которых мы строим свои рассуждения.
Естественно механизм кодирования рассматривать как двухступенчатый. На первой ступени тРНК узнает аминокислотный остаток, а на второй - ее антикодон-акцептор узнает соответствующий ему кодон в мРНК.
При этом в соответствии с современными представлениями молекулярной
генетики естественно сделать следующие предположения.
1. По каждой тРНК однозначно определяется входящий в ее состав
антикодон-акцептор.
2. Каждая тРНК всей своей индивидуальностью однозначно определяет
присоединяющийся к ней аминокислотный остаток.
3. Узнавание антикодона-акцептора кодоном из мРНК происходит согласно wobble-гипотезе.
Итак, определим:
(1) отображение f, которое молекуле тРНК x ставит в соответствии
аминокислоту f(x);
(2) отображение g, которое молекуле тРНК x ставит в соответствие
ее антикодон-акцептор g(x);
(3) отношение Compl - отношение комплементарности между кодонами
и антикодонами согласно wobble-гипотезе.
При таких предположениях таблица кодирования аминокислот кодонами
полностью определяется следующим правилом:
Кодон a кодирует аминокислоту b тогда и только тогда, когда существует тРНК x такая,
что b=f(x) и антикодон g(x) комплементарен кодону a.
На основании выше изложенного составим таблицу взаимодействия кодонов с
возможными антикодонами.
uuu | phe | phe | aaa aag aai |
uuc | phe | phe | aag aai |
uua | leu | leu | aau aai |
uug | leu | leu | aac aau |
ucu | ser | ser | aga agg agi aia aig aii |
ucc | ser | ser | agg agi aig aii |
uca | ser | ser | agu agi aiu aii |
ucg | ser | ser | agc agu aic aiu |
uau | tyr | tyr | aua aug aui |
uac | tyr | tyr | aug aui |
uaa | trm | trm | auu aui |
uag | trm | trm | auc auu |
ugu | cys | cys | aca acg aci |
ugc | cys | cys | acg aci |
* uga | trm | trp | acu aci |
ugg | trp | trp | acc acu |
cuu | leu | leu | gaa gag gai iaa iag iai |
cuc | leu | leu | gag gai iag iai |
cua | leu | leu | gau gai iau iai |
cug | leu | leu | gac gau iac iau |
ccu | pro | pro | gga ggg ggi gia gig gii iga igg igi iia iig iii |
ccc | pro | pro | ggg ggi gig gii igg igi iig iii |
cca | pro | pro | ggu ggi giu gii igu igi iiu iii |
ccg | pro | pro | ggc ggu gic giu igc igu iic iiu |
cau | his | his | gua gug gui iua iug iui |
cac | his | his | gug gui iug iui |
caa | gln | gln | guu gui iuu iui |
cag | gln | gln | guc guu iuc iuu |
cgu | arg | arg | gca gcg gci ica icg ici |
cgc | arg | arg | gcg gci icg ici |
cga | arg | arg | gcu gci icu ici |
cgg | arg | arg | gcc gcu icc icu |
auu | ile | ile | uaa uag uai |
auc | ile | ile | uag uai |
* aua | ile | met | uau uai |
aug | met | met | uac uau |
acu | thr | thr | uga ugg ugi uia uig uii |
acc | thr | thr | ugg ugi uig uii |
aca | thr | thr | ugu ugi uiu uii |
acg | thr | thr | ugc ugu uic uiu |
aau | asn | asn | uua uug uui |
aac | asn | asn | uug uui |
aaa | lis | lis | uuu uui |
aag | lis | lis | uuc uuu |
agu | ser | ser | uca ucg uci |
agc | ser | ser | ucg uci |
* aga | arg | trm | ucu uci |
* agg | arg | trm | ucc ucu |
guu | val | val | caa cag cai |
guc | val | val | cag cai |
gua | val | val | cau cai |
gug | val | val | cac cau |
gcu | ala | ala | cga cgg cgi cia cig cii |
gcc | ala | ala | cgg cgi cig cii |
gca | ala | ala | cgu cgi ciu cii |
gcg | ala | ala | cgc cgu cic ciu |
gau | asp | asp | cua cug cui |
gac | asp | asp | cug cui |
gaa | glu | glu | cuu cui |
gag | glu | glu | cuc cuu |
ggu | gly | gly | cca ccg cci |
ggc | gly | gly | ccg cci |
gga | gly | gly | ccu cci |
ggg | gly | gly | ccc ccu |
В первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам. Знаком * отмечены строки, в которых имеются различия в в универсальном коде и коде митохондрий.
С помощью таблицы кодон-антикодонного взаимодействия построим два двудольных графа D и DI, изображающие отношение комплементарности между кодонами и антикодонами в первом и во втором случаях. В графе DI вершинами первой доли являются 64 кодона, построенных из нуклеотидов U,C,A,G, а вершинами второй - 125 триплетов, которые предположительно могут играть роль антикодонов-акцепторов и в которые кроме U,C,A,G может входить нестандартный (минорный) нуклеотид I. Кодон первой доли связан ребром с триплетом второй доли, если они комплементарны в соответствии с wobble-гипотезой.
Граф D отличается от DI тем, что вторая доля состоит, как и первая, из 64 триплетов, не использующих нестандартный нуклеотид I.
Легко видеть, что граф D распадается на 32 компоненты связности, а граф DI на 16.
Каждая компонента связности в графе DI содержит 4 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из четырех.
Каждая компонента связности в графе D содержит 2 кодона из первой доли, в которых первые два нуклеотида фиксированы, а третьим может быть любой из U,C, либо любой из A,G.
Кодоны первой доли, входящие в одну компоненту связности графа D (DI), будем называть D-эквивалентными (соответственно, DI-эквивалентными).
Наряду с D и DI эквивалентностями рассмотрим R-эквивалентность, при которой эквивалентными считаются кодоны, детерминирующие одну и ту же аминокислоту в соответствии с универсальным генетическим кодом и аналогично RM-эквивалентность, порождаемую кодом митохондрий человека.
Сравнение введенных D и RM-эквивалентностей, показывает, что разбиение D является подразбиением разбиения RM, это означает, что для реализации кода митохондрий человека достаточно существования тРНК с антикодонами-акцепторами, построенными из четырех нуклеотидов U,C,A,G. Аналогичный вывод можно сделать и для дрожжевых митохондрий.
Рассмотрим фрагмент таблицы, описывающей кодон-антикодонное взаимодействие, в которой в первой колонке указаны кодирующие кодоны, во второй - соответствующие им в универсальном коде аминокислотные остатки, в третьей - соответствующие аминокислотные остатки в коде митохондрий человека, а начиная с четвертой - возможные антикодоны, комплементарные кодирующим кодонам.
AUU | Ile | Ile | - UAA UAG UAI |
AUC | Ile | Ile | - UAG UAI |
AUA | Ile | Met | - UAU UAI |
AUG | Met | Met | - UAC UAU |
Анализ этой таблицы показывает, что возможное присутствие в антикодонах-акцепторах нестандартных нуклеотидов может привести к противоречию гипотезы Ф.Крика с таблицей кодирования митохондрий. Так возможное наличие тРНК с антикодоном UAI привело бы к неоднозначности Ile, Met. С другой стороны, наличие нестандартного нуклеотида I хорошо согласуется с так называемый универсальный таблицей кодирования. Так как тот же антикодон UAI комплементарен кодонам AUC, AUA, AUG, кодирующим одну и ту же аминокислоту Ile. Но, в то же время, антикодон UAU нарушает однозначность универсального кода.
При сопоставлении графа DI и универсального биологического кода можно обнаружить, что существует десять таких триплетов, способных подобно антикодону UAU нарушить однозначность универсального кода. Такими триплетами являются, например, ACU (он комплементарен одновременно терминирующему кодону UGA и кодону, определяющему Trp), UUI (комплементарен кодонам AAU,AAC, определяющим Asn, и кодону AAA, определяющему Lis).
Приведем полный их перечень с указанием неоднозначности.
AAI - Phe,Leu | AUI - Tyr,Term | ACI - Cys,Term |
IUI - His,Gln | GUI - His,Gln | UUI - Asn,Lys |
UCI - Ser,Arg | CUI - Asp,Gln | UAU - Ile,Met |
ACU - Term,Trp. |
Как отмечалось в [10] коллизия, которая может возникнуть в связи с появлением таких антикодонов гипотетически может быть разрешена тем, что кодоны, комплементарные таким антикодонам, не встречаются в экзонах (с учетом рамки считывания).
Здесь мы хотим обратить внимание на то, что есть по крайней мере два варианта модификации гипотезы качаний, которые могли бы снять возможные сомнения в универсальности кодирующей таблицы.
Первый вариант нестандартной комплементарности для третьего нуклеотида - [U,G],[I,U],[I,C]. Второй вариант - [U,G],[I,A].
Вопрос о том, как разрешается эта коллизия в природе, повидимому, открыт. Убедительное решение вопроса об универсальности кода требует более тщательных экспериментов в рамках старых модельных построений и не снимает заботу о формирования новых моделей.
В заключение заметим, что рассмотренная модель позволяет объяснить существование различных таблиц кодирования белков молекулами мРНК и, повидимому, позволяет спланировать эксперименты по уточнению wobble-гипотезы, поискам убедительных доказательств однозначности кодирования или наоборот обнаружения случаев его неоднозначности.
Поскольку естественные нуклеотидные последовательности имеют слишком большую длину для того, чтобы непосредственно биохимическими методами устанавливать нуклеотидный состав цепочек и последовательность нуклеотидов (десятки и сотни тысяч нуклеотидов), разработаны методы, связанные с разрезанием цепочек на короткие фрагменты с последующей их расшифровкой биохимическими методами и составлением этих фрагментов в исходную последовательность.
Предпосылкой для такого подхода расшифровки является существование специальных ферментов, называемых рестриктазами, способных расщеплять нуклеотидные цепочки в определенных местах. Например, рестриктаза с названием EcorI "обнаружив" в цепочке фрагмент GAATTC разрезает ее между первым и вторым нуклеотидом фрагмента. Перечислим несколько находящихся в арсенале биохимии рестриктаз с их названиями:
HhaI - GCC*C | HindIII - A*AGCTT |
HpaI - GTT*AAC | HpaII - C*CGG |
MboI - *GATC | MnoI - C*CGG |
Знаком * указано место разрезания.
Опишем кратко основную идею этого метода на искусственном примере [9]. Предположим, что нам известна длина N всей последовательности и количество вхождений в эту последовательность нуклеотидов U,C,A,G. Пусть это будут, соответственно, числа N1, N2, N3, N4, тогда возможных цепочек в такой ситуации может быть
K = N!/(N1!*N2!*N3!*N4!).
Рассмотрим для примера последовательность
CCGAUCGGC.
Здесь N=9, N1=1, N2=4, N3=1, N4=3, K=2520.
Допустим, что некоторая рестриктаза режет на фрагменты, окачивающиеся на G. После ее использования получим фрагменты CCG, AUCG, G, C; назовем их G-фрагментами. G-фрагменты можно упорядочить 4! способами. В действительности, мы можем рассматривать только 3! вариантов поскольку один из полученных фрагментов не кончается на G и поэтому должен быть последним в цепочке.
Далее, допустим, что есть рестриктаза, которая разрезает цепочку на фрагменты, окачивающиеся на C или U. С ее помощью получим фрагменты C, C, GAU, C, GGC. Число различных последовательностей, которые можно составить из этих фрагментов равно 5!/3! = 20.
Рассмотрим 3!=6 вариантов упорядочения G-фрагментов.
Очевидно, из них только первый можно рассматривать как последовательность U,C-фрагментов. Итак, зная U,C-фрагменты и G-фрагменты можно однозначно определить последовательность нуклеотидов в исходной цепочке.
Пусть рестриктаза A разбивает некоторую цепочку на A-фрагменты, а рестриктаза B - на B-фрагменты и пусть эти фрагменты расшифрованы, но не известен порядок, в котором они уложены в исходной цепочке. В таком случае можно построить граф G(A,B), в котором вершинами являются A-фрагменты и B-фрагменты. Между A-фрагментом и B-фрагментом есть ребро в том и только в том случае, когда эти фрагменты перекрываются. Вопрос о непротиворечивости информации о фрагментах равносилен вопросу об интервальности графа, то есть вопросу является ли этот граф графом пересечений некоторых интервалов на отрезке прямой.
Объем генетической информации в организме можно представить количеством пар нуклеотидов на одну клетку. Для примера приведем имеющиеся в литературе оценки на размер генома некоторых организмов. Размеры геномов приведены в миллионах пар нуклеотидов.
Бактерии | 5 |
Дрожжи | 15 |
Курица | 1000 |
Мышь | 3000 |
Человек | 3000 |
Кукуруза | 15000 |
Саламандра | 90000 |
Лилия | 90000 |
Приведем некоторые статистические данные по геному одного из ивестных вирусов (HIVH3CG)
Общее количество нуклеотидов n=9749 из них
U - 2168, C - 1785, A - 3432, G - 2364
или в процентах к общему числу:
U - 22%, C - 18%, A - 35%, G - 24%.
Число диграмм:
U | C | A | G | |
U | 553 | 338 | 690 | 587 |
C | 468 | 421 | 804 | 92 |
A | 713 | 566 | 1126 | 1026 |
G | 433 | 460 | 812 | 659 |
Введем обозначения:
s(n1,n2) - число вхождений диграммы
(n1,n2) в рассматриваемую
цепочку, где n1,n2 - пара подряд идущих нуклеотидов.
s(n1),s(n2) - число вхождений нуклеотида n1,
соответственно, n2
в рассматриваемую цепочку;
Отклонение от математического ожидания количества вхождений диграмм,
вычисленное по формуле (s(n1,n2)*n)/(s(n1)*s(n2)) при условии
независимого появления нуклеотидов в цепочке представлено в таблице 1.
U | C | A | G | |
U | 1.15 | 0.85 | 0.90 | 1.12 |
C | 1.18 | 1.29 | 1.28 | 0.21 |
A | 0.93 | 0.90 | 0.93 | 1.23 |
G | 0.82 | 1.06 | 0.98 | 1.15 |
Любопытно сравнить эту таблицу с таблицей 2, в которой аналогичные данные получены для последовательности из такого же количества нуклеотидов, сгенерированной с помощью датчика псевдослучайных чисел, в которой нуклеотиды появляются с такими же частотами как в геноме HIVH3CG.
U - 2183 | C - 1795 | A - 3463 | G - 2308 |
U - 22% | C - 18% | A - 36% | G - 24% |
Число диграмм
U | C | A | G | |
U | 502 | 426 | 726 | 529 |
C | 380 | 337 | 634 | 444 |
A | 765 | 640 | 1256 | 801 |
G | 536 | 392 | 846 | 534 |
Отклонение от математического ожидания
U | C | A | G | |
U | 1.03 | 1.06 | 0.94 | 1.02 |
C | 0.95 | 1.02 | 0.99 | 1.04 |
A | 0.99 | 1.00 | 1.02 | 0.98 |
G | 1.04 | 0.92 | 1.03 | 0.98 |
Число триплетов в геноме HIVH3CG и в искусственно сгенерированной последовательности приведено в таблицах 3 и 4.
Таблица 3. Число триплетов в геноме HIVH3CG.
UU | UC | UA | UG | CU | CC | CA | CG | AU | AC | AA | AG | GU | GC | GA | GG | |
U | 163 | 85 | 169 | 136 | 92 | 87 | 143 | 16 | 134 | 128 | 204 | 224 | 134 | 105 | 129 | 219 |
C | 108 | 79 | 128 | 153 | 121 | 94 | 179 | 27 | 150 | 127 | 235 | 291 | 12 | 20 | 36 | 24 |
A | 185 | 129 | 224 | 175 | 130 | 129 | 287 | 20 | 272 | 159 | 398 | 297 | 200 | 220 | 379 | 227 |
G | 97 | 45 | 169 | 122 | 125 | 111 | 195 | 29 | 157 | 152 | 289 | 214 | 87 | 115 | 268 | 189 |
Таблица 4. Число триплетов в искусственной последовательности.
UU | UC | UA | UG | CU | CC | CA | CG | AU | AC | AA | AG | GU | GC | GA | GG | |
U | 117 | 85 | 184 | 116 | 100 | 76 | 144 | 106 | 167 | 138 | 247 | 174 | 131 | 85 | 189 | 124 |
C | 88 | 77 | 115 | 100 | 70 | 66 | 116 | 85 | 140 | 114 | 227 | 152 | 119 | 59 | 169 | 97 |
A | 168 | 157 | 240 | 200 | 130 | 132 | 227 | 151 | 268 | 240 | 467 | 281 | 170 | 169 | 283 | 179 |
G | 129 | 107 | 187 | 113 | 80 | 63 | 147 | 102 | 190 | 148 | 314 | 194 | 116 | 79 | 205 | 134 |
Различия в таблицах для естественной и искусственной последовательностей позволяют сделать предположение о наличии структурных закономерностей в естественном генетическом тексте. Наиболее убедительным фактом служит различие в количестве диграмм "CG" в естественной (92) и искусственной (444) цепочках.
1. Итоги науки и техники.Серия Геном человека /Том 2. Структурное
исследование генома человека.Под редакцией академиков А.А.Баева,
А.Д.Мирзабекова, к.б.н. Н.Н.Беляевой, М.,1994.
2. Ичас, Биологический код. Мир, М.,1971.
3. Л.Зенгбуш, Молекулярная и клеточная биология (в трех томах),
Мир.,М.1982.
4. Б.Льюин, Гены. Мир,М.,1986.
5. Ф.Шапвиль.А.-Л.Энни, Биосинтез белка. Мир, М.,1977.
6. Г.Гамов, Комбинаторные принципы в генетике/Прикладная комбинаторная математика.
сб. под ред. Э.Беккенбаха, Мир, М.,1968.
7. Математические проблемы в биологии/ сб.статей под ред Р.Беллмана. Мир, М., 1966.
8. tRNA: Structure, Biosinthesis, and Function Edited by Dieter
Soll and Uttam RajBhandary c 1995 AmericanSociety for Microbiology,
Washington, DC 20005.
9. The IMA Volumes in Mathematics and its Applications, Volume
17, F.Roberts, Applications of Combinatorics and Graph Theory to the
Biological and SocialSciences, Springer-Verlag.
10. К.Г.Кирьянов, В.А.Таланов. Биологический код и гипотеза
неоднозначного соответствия, Тезисы доклада, ННГУ, Н.Новгород, 1997
(в печати).