g_ryurikov | Введение в биологию

XII
Генетический код

Итак, информация о первичной структуре белков закодирована в структуре ДНК. Каким образом в ДНК (и вообще в нуклеиновых кислотах) может быть что-то закодировано? Вообще информация — это любые свойства объекта, который является их носителем (от лат. informare — «придавать форму»). Если мы хотим, чтобы какой-то определённый класс объектов использовался как хранилище информации, внутри этого класса должно существовать какое-то разнообразие «форм». Например, можно передавать информацию, используя разнообразие слов в языке, но если разрешено использовать только одно слово, информацию передать будет затруднительно: ведь если заранее известно, какое слово будет произнесено, где информация?

«Разнообразие форм» может быть реализовано двумя основными способами — переход от одной формы к другой может быть плавным или скачкообразным (дискретным). Скажем, текст, набранный с помощью букв, представляет собой одно из дискретных состояний (нельзя менять буквы плавно, буква или заменена на другую, или нет), поэтому существует строго определённое конечное число текстов заданной длины. Если же информация передаётся с помощью формы кусочка пластилина, то существует практически бесконечное число форм, которые он может иметь. В этом состоит разница между цифровой и аналоговой информацией: цифровая информация предполагает дискретное изменение, аналоговая — непрерывное.

Здесь надо сделать важную оговорку: на микроуровне весь наш материальный мир имеет дискретную природу: вещество состоит из атомов, которые теоретически можно пересчитать, энергия тоже передаётся в виде дискретных единиц (квантов). Нельзя передать пять с половиной молекул воды, нельзя передать полкванта энергии. Это означает, что, к примеру, количество воды в стакане, которое я, казалось бы, могу изменять плавно, на самом деле описывается конечным (хоть и очень большим) числом состояний. Но если мы говорим о кодировании информации, важное значение будут иметь свойства системы, которая информацию воспринимает, считывает. В самом общем виде под считыванием информации можно понимать изменение структуры одного материального носителя на основе информации, содержащейся в структуре другого носителя. (Когда я читаю текст — что-то меняется в моём мозгу.) Если в ходе такого считывания распознаётся изменение количества воды в стакане на одну молекулу — сигнал цифровой. Если же разрешающая способность ниже, для «считывающей» системы изменение уровня воды будет выглядеть плавным, и сигнал будет функционально аналоговым.

Наследственная информация закодирована в ДНК, а ДНК — это молекулы, то есть объекты микромира. Записана информация в них в виде последовательности нуклеотидов, то есть «ТТАГГЦАТЦГГГ» — это одно содержание, а «ГГГГААЦАТАГГ» — другое. Очевидно, существует конечное число последовательностей заданной длины; причём замена одного-единственного нуклеотида может иметь значение. Поэтому генетический код — цифровой.

Под генетическим кодом понимается именно сам способ перекодировки, «ключ» к шифру. После открытия структуры ДНК перед биологами встала задача установить, как именно последовательность нуклеотидов определяет последовательность аминокислот в белках. Прежде всего, код может быть перекрывающимся или неперекрывающимся. Можно ли провести чёткую границу, которая разделяет участок, кодирующий одну аминокислоту, от участка, кодирующего другую, или они могут «перехлёстываться»? К примеру, в тексте «СОБАКАБЛУКРОПЕРАЦИЯ» содержатся слова «собака», «каблук», «укроп», «операция» — это пример перекрывающегося кода. В пятидесятые годы XX в. было предложено много разнообразных моделей, исходивших из того, что код перекрывающийся (например, «бубновый код» Георгия Гамова). Но перекрывающийся код, очевидно, накладывает ограничения на возможные последовательности аминокислот (так же как и в примере выше не могла бы быть любая последовательность слов), тогда как со временем стало ясно, что жёстко определённых правил чередования аминокислот в белках нет. Значит, код неперекрывающийся.

Простейший способ закодировать последовательность символов из одного набора последовательностью символов из другого набора — просто сопоставить каждому символу из первого символ из второго. Так устроена куча известных нам кодов, например, шифр «пляшущих человечков» Конан Дойля:

В этом шифре столько же разных человечков, сколько и букв, но наша задача сложнее: разновидностей нуклеотидов меньше, чем аминокислот. В состав ДНК входят четыре разновидности нуклеотидов (А, Т, Г, Ц), а аминокислот в белках, как мы помним, — 20 разновидностей. Это значит, что одни символ из одного списка будет кодироваться комбинацией символов из другого списка. Например, вот так:

Это азбука Морзе, в которой все буквы латинского алфавита и цифры кодируются с помощью всего... трёх символов. Да, трёх — точки, тире и пробела. Комбинации точек и тире, обозначающие буквы, отделяются паузами, чтобы можно было понять, где закончилась предыдущая буква и началась следующая. В ДНК пробелов в буквальном смысле быть не может, так как все нуклеотиды должны быть связаны ковалентными связями. Можно, конечно, «отдать» один нуклеотид под «пробелы между аминокислотами», но проще «договориться» о длине последовательности, кодирующей одну аминокислоту — если она известна, понятно, где закончилась одна «буква» и началась вторая. Если брать по одному нуклеотиду — их всего 4, а сколько получится, если использовать «двойки», типа АА, ГЦ, АТ?.. Каждый из четырёх нуклеотидов, будучи поставлен на первое место, теперь имеет ещё четыре варианта окончания, всего получается 16 вариантов:

Этого, к сожалению, недостаточно, так как аминокислот 20. Сколько получится вариантов, если мы будем брать «тройки» нуклеотидов? Каждая двойка получает по 4 варианта окончания, всего получается 64 «тройки». Это уже существенно больше, чем 20, но это минимальная подходящая длина последовательности, так как «двоек» не хватает. Использовать «четвёрки» смысла уже нет. Значит, одна аминокислота в полипептидной цепи должна кодироваться тремя нуклеотидами. И что бы вы думали? Так и сделано в природе.

Генетический код триплетен, это значит, что одну аминокислоту кодирует «тройка» нуклеотидов (триплет).

Полностью генетический код был расшифрован к середине шестидесятых годов. Он представляет из себя таблицу, с помощью которой можно определять последовательность аминокислот по кодирующим их нуклеотидам. Вот эта таблица:

Для того, чтобы понять, например, какую аминокислоту кодирует триплет ААГ, нужно найти первую букву в левом вертикальном ряду (в нашем случае это А, третья сверху), найти пересечение со столбцом, соответствующем второй букве (у нас это А, третий столбец), и в найденном квадрате выбрать ту аминокислоту, которая стоит напротив правильной третьей буквы, которая ищется в правом вертикальном ряду (у нас это Г). Получается «Lys» — лизин.

По такой таблице можно уверенно определить аминокислоту по триплету нуклеотидов — отдельный триплет кодирует определённую, одну-единственную аминокислоту. Это означает, что генетический код однозначен.

А вот обратная задача в общем виде не решаема: если я загадаю триплет, и скажу, что он кодирует лизин, то однозначно, не рискуя ошибиться, угадать триплет не получится. Из таблицы видно, что одну и ту же аминокислоту могут кодировать несколько разных триплетов. Это неизбежно, так как триплетов 64, а аминокислот 20. Таким образом, генетический код избыточен (вырожден). Вырожденность — в данном случае математический термин, который означает упрощение структуры объекта. Например, попытаемся представить себе, что произойдёт с треугольником, если увеличивать один из его углов, доведя его в конце концов до 180°. Оба других угла уменьшатся до 0°, а все вершины окажутся на одной прямой. Такой треугольник называется вырожденным — он проще, чем «нормальный» треугольник, так как не обладает всеми свойствами типичного треугольника. Например, «нормальный» треугольник, если он не равнобедренный, не совмещается со своим зеркальным отражением. А вырожденный совмещается.

Упрощение означает потерю информации. Информации тем больше, чем из большего числа вариантов мы выбираем. Если, пытаясь угадать одного ученика из класса, где 30 человек, я получаю информацию о его поле (выбор одного из двух вариантов), — скажем, известно, что это мальчик, — я узнал не так уж и много. Если мне сообщают его имя и фамилию (выбор одного из 30 вариантов), — скажем, это Вася Пупкин — я получил гораздо больше информации. На рисунке выше, чтобы выбрать один из «нормальных» треугольников, нужно знать, какой — правый или левый. У вырожденного информация между правым и левым потеряна, это одна и та же фигура.

Выбор одного из 64 вариантов даёт больше информации, чем выбор одного из 20. Как мы уже убедились, при переходе от триплета к аминокислоте информация теряется (нельзя «обратно вспомнить триплет»), поэтому код и называется вырожденным. Эта потерянная информация, в общем, является лишней, так как наша задача — закодировать аминокислоту. Поэтому код можно называть избыточным. Кстати, триплеты, кодирующие одну и ту же аминокислоту, называются синонимичными (так же как в лингвистике синонимами называются слова, имеющие одинаковый смысл).

Задача «закодировать белки последовательностью нуклеотидов» порождает ещё одну проблему. Мы выяснили, как определяются границы между «буквами» в нашем коде, но ещё как-то надо обозначать границы между «словами». Вы, вероятно, заметили, что в таблице генетического кода некоторые триплеты обозначены как «Stop». Такой триплет не кодирует никакую аминокислоту и сигнализирует о конце полипептидной цепи.

Следующее важное свойство генетического кода вытекает из того факта, что, когда мы пытаемся определить, какую аминокислоту кодирует триплет ААГ, мы не вынуждены спрашивать: «А у кого?». ААГ кодирует лизин и у человека, у жирафа, у паука, у подосиновика, у тополя и даже у кишечной палочки. Таблица, приведённая выше, за редким исключением, одинаково хорошо будет подходить для всех живущих на Земле существ (исключения имеют место, но это действительно редкие исключения, и всё равно это незначительные вариации той же самой таблицы). Генетический код универсален.

Итак, информация, необходимая для постройки белков, хранится в ДНК — веществе совсем иной химической природы. Триплет ААГ кодирует лизин, но в ААГ нет лизина, в нуклеотидах нет аминокислот, есть только информация о них, — так же, как в кулинарной книге нет пирога, даже самого завалящего.

Кстати, три буквы «ААГ» не содержат не только лизина, но, очевидно, не содержат и нуклеотидов. В данном тексте я обозначаю буквами нуклеотиды, а в живой клетке нуклеотидами обозначаются аминокислоты.

Итак, система «таблица генетического кода + человек, который умеет ей пользоваться» успешно решает задачу расшифровки последовательности нуклеотидов. Но в клетке нет человека, сидящего за компьютером, там нет и таблицы, ни распечатанной, ни хотя бы нацарапанной на стенке какого-нибудь клеточного органоида. Как же клетка решает задачу использования генетической информации для синтеза белка? Каков реальный механизм, позволяющий «считывать» информацию с ДНК и в конечном счёте синтезировать белки? Кто этот «читатель» и как он устроен? Для того, чтобы ответить на эти вопросы, уже недостаточно опираться только на химические механизмы. Нужно знать, как вообще устроена живая клетка, какие структуры в ней имеются и как они работают.

Дополнительные ссылки:
https://ru.wikipedia.org/wiki/Генетический_код_
http://galicarnax.livejournal.com/16972.html
http://galicarnax.livejournal.com/24409.html
http://biomolecula.ru/content/1442

(продолжение следует)

Введение в биологию — оглавление