О детерминированном моделировании РНК-петли
Это отчет о проделанном исследовании. Автор: Сергей Яковлев |
Введение
[править]В научно-популярном очерке [1] была поставлена биоинформационная задача: найти трехмерную структуру РНК по первичной структуре. И сделать это нужно in silico – то есть, используя компьютерное моделирование эксперимента. В качестве тестового примера взят вироидный рибозим NC_003540 с классической структурой типа “головки молотка” (Hamerhead ribozyme).
Наиболее близким по целям и способу моделирования является подход описанный в работе [2]. Но качество программного обеспечения нас не устраивало, поэтому был проведен полноценный реинжиниринг ПО Rosetta в части сворачивания РНК, в результате чего было создано независимое ПО RNAFoldingAI на языке С# [3].
Вначале мы пытались поставить задачу в терминах обучения с подкреплением с элементами генетических алгоритмов [4]. Но в ходе исследования было установлено, что применение методов, в которых используется стохастический поиск глобального минимума для сложной энергетической поверхности, непригодно. Поэтому применение вероятностных поисков начиная от простейших Монте Карло, и заканчивая любыми методами ИИ, не будет успешным, так как вероятность нахождения глобального минимума равноценна полному перебору. А известно, что полный перебор выполнить для этой задачи невозможно [5].
Поэтому в дальнейшем, мы базировались на логически-детерминированном подходе, с целью „сборки РНК по частям“. Наибольшую сложность представляет формирование петли РНК. Она в основном определяет последующею укладку остального фрагмента РНК, в котором пары нуклеотидов „стянуты“ Уотсон-Криковскими или Хугстиновскими водородными связями.
Таким образом, задачей нашего моделирования стало разработать подход и соответствующие методы, которые позволят построить автоматически петлю РНК одного из фрагмента вироидного рибозима NC_003540, на основании первичной структуры. Этот фрагмент имеет следующию первичную структуру cugaagugg. При этом 1 и 9 нуклеотид из этой последовательности образует Уотсон-Криковскую водородную связь, образование которой в моделировании является основным критерием успешности моделирования. Кроме того, мы сравнивали получаемую в моделировании третичную структуру, со структурой хранящейся в базе PDB [6].
Уточнения энергетической функции
[править]В работе [2] не описываются весовые коэффициенты энергетической функции, но по умолчанию они установлены в 1, за некоторыми исключениями. [7] .
В данном исследовании используется следующая функция оценки энергии:
SCORE = (VDW * 3.0 + RG) + (RNA_BS + RNA_BP_W + RNA_BP_H + RNA_BP_S) + (RNA_NONB * 1.5 + RNA_O2ST + RNA_PHOS) + (RNA_AXIS*0.2 + RNA_STAG * 0.5 )
Исправление оценки VDW. В работе [2] для оценки VDW используются только по 9 атомов из нуклеотидов. Данных о расположении водородных атомов в структуре 1FFK нету. Этого оказалось не достаточно, чтобы различать запрещенные состояния от разрешенных, поэтому были сделаны следующие уточнения:
- учитывается для всех доступных атомов (20-23 шт.) нуклеотидов из 1FFK.pdb наибольшие расстояния между парами нуклеотидов, которые находятся на расстоянии <12 Å
- учитывается для всех атомов (C, N, H, O) образование ковалентных связей, которых между нуклеотидами в структуре РНК быть не должно [8]
Уточнение вариаций углов при поворотах РНК. В работе [2] нуклеотиды A и G (= R) считаются аналогичными, а C и U (=Y) также. В данном исследовании, как правило, используется вращение одного нуклеотида, и соответственно имеется 1171 вариаций углов для нуклеотидов типа Y, и 1526 для нуклеотидов типа R. Это число достаточно большое, что является причиной замедления выполнения методов. Было решено уменьшить число этих вариаций, и с этой целью типы нуклеотидов не подменялись. Это дало для G - 829 вариаций углов, для C - 680, A - 697, U - 491.
Методы приближения к глобальному минимуму на сложной энергетической поверхности
[править]Будем исходить из предположения, что глобальный минимум лежит в рамках специально отобранных локальных решений, с последующим наложением на них специальных ограничений. |
Чтобы осуществить полный перебор вариантов поворотов (возможны порядка 1000 различных поворотов) для цепочки РНК из трех нуклеотидов требуется около 2 недель 6-процессорной машины. Поэтому были разработаны два достаточно простых метода, для предварительной оценки энергетического минимума.
Метод „Быстрое охлаждение“
[править]- Для каждого нуклеотида проверяем какой из поворотов дает наибольшее понижение энергии
- Выбираем тот нуклеотид и тот поворот, который максимально понизил энергию
- Фиксируем цепочку РНК, осуществляя поворот полученный в п.2.
- Повторяем процесс с п.1. пока понижение энергии не остановится
Метод „Попарная корреляция“
[править]В отличие от метода „Быстрого охлаждения“, данный метод пытается учесть корреляции положений. Но так как уже для трех положений это требует значительных вычислительных затрат, данный метод перебирает только положения для 2 нуклеотидов.
- Начинаем попарный перебор нуклеотидов
- Во время перебора находим наилучшие повороты двух нуклеотидов и их фиксируем
- Проверяем следующию пару нуклеотидов, переходя к п.1
Существует проблема выбора нуклеотидов (критических точек) для каждого последующего шага, применяя метод попарной корреляции сворачивая таким образом цепь РНК. А от этого, каждого такого шага, существенно зависит успешность следующего шага. Встает задача выбора пути на дереве, где каждый узел задается двумя позициями нуклеотидов, к которым применяется метод попарной корреляции. Переходы между узлами определяют следующию итерацию применения метода попарной корреляции к двум другим позициям, в то время как предыдущие уже зафиксированы, в соответствии с ранее пройденными узлами.
Комбинация применения методов
[править]Исследования показали, что самый первый поворот РНК имеет определяющие значение на ход сворачивания. Так если при повороте РНК изгибается пополам в результате нахождения корреляции двух нуклеотидов, то она попадает в такие пространственные условия, что дальнейшие повороты не могут исправить рядом имеющиеся положения нуклеотидов, и весь дальнейший ход сворачивания нарушается.
Поэтому как минимум, вначале нужно определить не попарную корреляцию нуклеотидов в центре цепи РНК, а хотя бы коррелированое состояние 3-х нуклеотидов. Для этого применяется метод быстрого охлаждения, но с поворотами 3-х нуклеотидов (справа и слева от целевого), а не одного. Затем фиксируется полученные положения 3-х нуклеотидов в центре петли РНК, а остальная цепь снова "разворачивается".
Затем применяется метод попарной корреляции. Наиболее стабильный результат получается если применять метод к критическим точкам постепенно удаляясь от центра то в одну, то в другую сторону.
Результаты
[править]Применяя описанную выше комбинацию методов "Быстрое охлаждение" и "Попарная корреляция" была получена достаточно точная третичная структура РНК-петли. Это стало возможным благодаря двум факторам:
- Методом "Быстрое охлаждение" было определено начальная позиция центра РНК-петли (4-5-6 позиции)
- Метод "Попарная корреляция" был применен к так называемому стволу дерева критических точек, т.е. следующая последовательность позиций нуклеотидов РНК-петли - 4-5, 5-6, 3-4, 6-7, 2-3, 7-8, 1-2, 8-9, 1-9 .
Контрольную водородную связь между 1 и 9 нуклеотидом получить не удалось, но атомы ее образующие установлены в достаточно близкие позиции. Водородная связь образуется если расстояние между донором и акцептором < 3 A, а водородный угол DHA < 20°. Нуклеотиды 1-C и 9-G образуют 3 водородные связи. Полученная в моделировании структура между 1 и 9 нуклеотидами удовлетворяет расстояниям между донором и акцептором (2.4-3.0 А < 3 A), но не удовлетворяет по углам (58°-76° < 20°). Но для получения грубой структуры это не принципиально, так как впоследствии был разработан метод „РНК-тюнинг“, который способен уточнить грубую структуру до идеальной.
Выводы и дальнейшие исследования
[править]Получение петли-РНК позволяет далее применить метод „РНК-тюнинг“, в результате чего можно получить отдельную РНК-спираль. В отличие от стохастических методов, которые сейчас преобладают в биоинформатике, данный метод целенаправленно конструирует конечное состояние (нативное) РНК. С одной стороны, нужно понимать, что это не моделирование траектории сворачивания, но это первый шаг к этому. С другой стороны, мы получаем конечное состояние РНК, что уже само по себе, без знания траектории, позволяет исследовать ряд других областей.
Математически наши методы аналогичны задачи нелинейного программирования с ограничениями. При этом энергетическая функция является функцией минимум которой нужно найти, а водородные связи являются ограничениями. Но мы свободны не решать эту задачу математическими методами, достаточно организовать выше описанный алгоритмический поиск.
В дальнейшем, следует сосредоточится на исследовании более сложных РНК, которые имеют структуру, содержащею более одной РНК-петли. Например, рибозим целиком, а затем транспортные РНК. Что в свою очередь позволит исследовать эволюцию прокариот и происходящие при этом мутации (см. «Геном прокариот» (проект)).
Примечания
[править]- ↑ Геномика бросает вызов искусственному интеллекту
- ↑ 2,0 2,1 2,2 2,3 Автоматизированное предсказание de novo третичной структуры РНК
- ↑ Программная разработка RNAFoldingAI
- ↑ Программная разработка RNAFoldingAI/Архив#Версия RNAFoldingAI 0.1
- ↑ см. Парадокс Левинталя
- ↑ 2RO2
- ↑ (для RNA_AXIS от 0 до 0.2, а RNA_STAG от 0 до 1 )
- ↑ Естественно, за исключением фосфора (P), посредством которого соединяются между собой нуклеотиды