О детерминированном моделировании РНК-петли

Материал из Викиверситета
(перенаправлено с «RNAInSpace/Отчет №1»)

Это отчет о проделанном исследовании.
После обсуждения данное исследование может получить статус оконченного исследования.

Автор: Сергей Яковлев


Введение[править]

Фрагмент рибозима NC_003540. Его первичная структура GGGAGACCUGAAGUGGGUUUCCC. Имеет следующие водородные связи 1-23; 2-22; 3-21; 4-20; 5-19; 6-18; 7-17; 8-16

В научно-популярном очерке [1] была поставлена биоинформационная задача: найти трехмерную структуру РНК по первичной структуре. И сделать это нужно in silico – то есть, используя компьютерное моделирование эксперимента. В качестве тестового примера взят вироидный рибозим NC_003540 с классической структурой типа “головки молотка” (Hamerhead ribozyme).

Наиболее близким по целям и способу моделирования является подход описанный в работе [2]. Но качество программного обеспечения нас не устраивало, поэтому был проведен полноценный реинжиниринг ПО Rosetta в части сворачивания РНК, в результате чего было создано независимое ПО RNAFoldingAI на языке С# [3].

Вначале мы пытались поставить задачу в терминах обучения с подкреплением с элементами генетических алгоритмов [4]. Но в ходе исследования было установлено, что применение методов, в которых используется стохастический поиск глобального минимума для сложной энергетической поверхности, непригодно. Поэтому применение вероятностных поисков начиная от простейших Монте Карло, и заканчивая любыми методами ИИ, не будет успешным, так как вероятность нахождения глобального минимума равноценна полному перебору. А известно, что полный перебор выполнить для этой задачи невозможно [5].

Поэтому в дальнейшем, мы базировались на логически-детерминированном подходе, с целью „сборки РНК по частям“. Наибольшую сложность представляет формирование петли РНК. Она в основном определяет последующею укладку остального фрагмента РНК, в котором пары нуклеотидов „стянуты“ Уотсон-Криковскими или Хугстиновскими водородными связями.

Таким образом, задачей нашего моделирования стало разработать подход и соответствующие методы, которые позволят построить автоматически петлю РНК одного из фрагмента вироидного рибозима NC_003540, на основании первичной структуры. Этот фрагмент имеет следующию первичную структуру cugaagugg. При этом 1 и 9 нуклеотид из этой последовательности образует Уотсон-Криковскую водородную связь, образование которой в моделировании является основным критерием успешности моделирования. Кроме того, мы сравнивали получаемую в моделировании третичную структуру, со структурой хранящейся в базе PDB [6].

Уточнения энергетической функции[править]

В работе [2] не описываются весовые коэффициенты энергетической функции, но по умолчанию они установлены в 1, за некоторыми исключениями. [7] .

В данном исследовании используется следующая функция оценки энергии:

SCORE = (VDW * 3.0 + RG) + (RNA_BS + RNA_BP_W + RNA_BP_H + RNA_BP_S) + (RNA_NONB * 1.5 + RNA_O2ST + RNA_PHOS) + (RNA_AXIS*0.2 + RNA_STAG * 0.5 )

Исправление оценки VDW. В работе [2] для оценки VDW используются только по 9 атомов из нуклеотидов. Данных о расположении водородных атомов в структуре 1FFK нету. Этого оказалось не достаточно, чтобы различать запрещенные состояния от разрешенных, поэтому были сделаны следующие уточнения:

  1. учитывается для всех доступных атомов (20-23 шт.) нуклеотидов из 1FFK.pdb наибольшие расстояния между парами нуклеотидов, которые находятся на расстоянии <12 Å
  2. учитывается для всех атомов (C, N, H, O) образование ковалентных связей, которых между нуклеотидами в структуре РНК быть не должно [8]

Уточнение вариаций углов при поворотах РНК. В работе [2] нуклеотиды A и G (= R) считаются аналогичными, а C и U (=Y) также. В данном исследовании, как правило, используется вращение одного нуклеотида, и соответственно имеется 1171 вариаций углов для нуклеотидов типа Y, и 1526 для нуклеотидов типа R. Это число достаточно большое, что является причиной замедления выполнения методов. Было решено уменьшить число этих вариаций, и с этой целью типы нуклеотидов не подменялись. Это дало для G - 829 вариаций углов, для C - 680, A - 697, U - 491.

Методы приближения к глобальному минимуму на сложной энергетической поверхности[править]

Будем исходить из предположения, что глобальный минимум лежит в рамках специально отобранных локальных решений, с последующим наложением на них специальных ограничений.


Чтобы осуществить полный перебор вариантов поворотов (возможны порядка 1000 различных поворотов) для цепочки РНК из трех нуклеотидов требуется около 2 недель 6-процессорной машины. Поэтому были разработаны два достаточно простых метода, для предварительной оценки энергетического минимума.

Метод „Быстрое охлаждение“[править]

  1. Для каждого нуклеотида проверяем какой из поворотов дает наибольшее понижение энергии
  2. Выбираем тот нуклеотид и тот поворот, который максимально понизил энергию
  3. Фиксируем цепочку РНК, осуществляя поворот полученный в п.2.
  4. Повторяем процесс с п.1. пока понижение энергии не остановится

Метод „Попарная корреляция“[править]

В отличие от метода „Быстрого охлаждения“, данный метод пытается учесть корреляции положений. Но так как уже для трех положений это требует значительных вычислительных затрат, данный метод перебирает только положения для 2 нуклеотидов.

  1. Начинаем попарный перебор нуклеотидов
  2. Во время перебора находим наилучшие повороты двух нуклеотидов и их фиксируем
  3. Проверяем следующию пару нуклеотидов, переходя к п.1

Существует проблема выбора нуклеотидов (критических точек) для каждого последующего шага, применяя метод попарной корреляции сворачивая таким образом цепь РНК. А от этого, каждого такого шага, существенно зависит успешность следующего шага. Встает задача выбора пути на дереве, где каждый узел задается двумя позициями нуклеотидов, к которым применяется метод попарной корреляции. Переходы между узлами определяют следующию итерацию применения метода попарной корреляции к двум другим позициям, в то время как предыдущие уже зафиксированы, в соответствии с ранее пройденными узлами.

Комбинация применения методов[править]

Исследования показали, что самый первый поворот РНК имеет определяющие значение на ход сворачивания. Так если при повороте РНК изгибается пополам в результате нахождения корреляции двух нуклеотидов, то она попадает в такие пространственные условия, что дальнейшие повороты не могут исправить рядом имеющиеся положения нуклеотидов, и весь дальнейший ход сворачивания нарушается.

Поэтому как минимум, вначале нужно определить не попарную корреляцию нуклеотидов в центре цепи РНК, а хотя бы коррелированое состояние 3-х нуклеотидов. Для этого применяется метод быстрого охлаждения, но с поворотами 3-х нуклеотидов (справа и слева от целевого), а не одного. Затем фиксируется полученные положения 3-х нуклеотидов в центре петли РНК, а остальная цепь снова "разворачивается".

Затем применяется метод попарной корреляции. Наиболее стабильный результат получается если применять метод к критическим точкам постепенно удаляясь от центра то в одну, то в другую сторону.

Результаты[править]

Результат применения комбинации методов "Быстрое охлаждение" и "Попарная корреляция"

Применяя описанную выше комбинацию методов "Быстрое охлаждение" и "Попарная корреляция" была получена достаточно точная третичная структура РНК-петли. Это стало возможным благодаря двум факторам:

  1. Методом "Быстрое охлаждение" было определено начальная позиция центра РНК-петли (4-5-6 позиции)
  2. Метод "Попарная корреляция" был применен к так называемому стволу дерева критических точек, т.е. следующая последовательность позиций нуклеотидов РНК-петли - 4-5, 5-6, 3-4, 6-7, 2-3, 7-8, 1-2, 8-9, 1-9 .

Контрольную водородную связь между 1 и 9 нуклеотидом получить не удалось, но атомы ее образующие установлены в достаточно близкие позиции. Водородная связь образуется если расстояние между донором и акцептором < 3 A, а водородный угол DHA < 20°. Нуклеотиды 1-C и 9-G образуют 3 водородные связи. Полученная в моделировании структура между 1 и 9 нуклеотидами удовлетворяет расстояниям между донором и акцептором (2.4-3.0 А < 3 A), но не удовлетворяет по углам (58°-76° < 20°). Но для получения грубой структуры это не принципиально, так как впоследствии был разработан метод „РНК-тюнинг“, который способен уточнить грубую структуру до идеальной.

Выводы и дальнейшие исследования[править]

Сконструированный РНК-фрагмент методом „РНК-тюнинг“ на основе полученной РНК-петли в данном исследовании

Получение петли-РНК позволяет далее применить метод „РНК-тюнинг“, в результате чего можно получить отдельную РНК-спираль. В отличие от стохастических методов, которые сейчас преобладают в биоинформатике, данный метод целенаправленно конструирует конечное состояние (нативное) РНК. С одной стороны, нужно понимать, что это не моделирование траектории сворачивания, но это первый шаг к этому. С другой стороны, мы получаем конечное состояние РНК, что уже само по себе, без знания траектории, позволяет исследовать ряд других областей.

Математически наши методы аналогичны задачи нелинейного программирования с ограничениями. При этом энергетическая функция является функцией минимум которой нужно найти, а водородные связи являются ограничениями. Но мы свободны не решать эту задачу математическими методами, достаточно организовать выше описанный алгоритмический поиск.

В дальнейшем, следует сосредоточится на исследовании более сложных РНК, которые имеют структуру, содержащею более одной РНК-петли. Например, рибозим целиком, а затем транспортные РНК. Что в свою очередь позволит исследовать эволюцию прокариот и происходящие при этом мутации (см. «Геном прокариот» (проект)).

Примечания[править]


Эта статья — часть материалов: проекта RNAFoldingAI