Геномика бросает вызов искусственному интеллекту

Какие вызовы нам бросает современная действительность научных открытий ? На заре научной деятельности открытия выражались достаточно простыми законами, особенно в физике, например, закон тяготения Ньютона. Что случилось теперь? Почему теперь значимые теоретические открытия происходят лишь в столь сложных областях, как к примеру, квантовая механика или общая теория относительности. И главное, почему эти теории не дают простой логически-интуитивно понятный ответ? Куда пропали законы как таковые, и почему их место заняли теории перегруженные математикой?

Мы знаем одно – исследования вширь прекратились, и теперь исследования проводятся во всех научных областях, и вопрос стоит лишь в том, насколько глубоко и детально. И вот при углублении и связанной с этим узкой специализацией исследователей, выяснилось что то, что раньше мы с легкостью называли законами, на самом деле, в лучшем случае, является общими принципами, которые в зависимости от предметной области и реальных условий могут сильно уточняться и видоизменяться.

Но как нам при этом попытаться сохранить ту былую простоту логически-интуитивных законов? Дать хотя бы приближенный на это ответ нам позволит междисциплинарное рассмотрение двух молодых наук Искусственного интеллекта и Геномики. Геномика – это раздел молекулярной генетики, посвященный изучению генома и генов живых организмов. Сформировалась как особое направление вместе с возникновением первых проектов по секвенированию геномов. Возможность секвенирования геномов позволяет пытаться искать механизмы взаимодействия биологических веществ. Без этого мы могли только догадываться о том, какие принципы заложены в биологических процессах.

Тут мы сталкиваемся с огромными атомными системами, в которых все физические теории бессильны. И поэтому геномика, да и биология в целом, пошла по другому пути. Она не пытается обобщать и математизировать изучаемые механизмы, в отличие от физики. Она их изучает каждый сам по себе, и затем описывает на логически понятном языке.

Но любой теоретик желает построить не избыточную теорию, где все построено лишь на частных примерах, а найти во всех этих примерах закономерную последовательность. При этом хочется начать с самой простой системы, но, тем не менее, не потеряв биологическую значимость.

Но тут мы имеем удивительный феномен – как только мы начинаем искать самое простое, что есть в геномике, чтобы затем это положить в основу теории (ведь понятно, что стройная теория не может быть построена без разделения на простейшие составляющие), мы поразительным образом приходим к фундаментальной проблеме – происхождения жизни, а теория которую мы строим вынужденно приобретает черты частной теории эволюции.

В самом деле, для того, чтобы найти простейшую, но биологически значимую систему – нужно четко иметь понимание, чем живое отличается от не живого. Это тот вопрос, на который, до недавнего времени, биологии предпочитали не отвечать. Теперь мы знаем, что до нашего белкового мира существовал самодостаточный РНК-мир, без ДНК и белковых составляющих. И этот древний мир и по сей день имеет своих представителей, но сложнейшим образом смешался с современным ДНК-белковым миром. Эти представители – это вироиды.

Сейчас о вироидах известно не очень много. С точки зрения систематики, они чем то сходны с вирусами, но к ним не относятся. Надо сказать, что систематика вироидов и вирусов практически не разработана, то есть сложно говорить о их эволюционной близости и происхождении.

Но факт остается фактом, вироид – это короткая цепь РНК, и, в отличие от вирусов, не имеет белковой оболочки. Они были обнаружены в составе растений, что вызывало их болезни. И самое интересное заключается в том, что в составе этой РНК цепи содержится рибозим, то есть фрагмент РНК, который способен самостоятельно расщепляться и катализировать свое самовоспроизведение. Несмотря на то, что это происходит на порядок медленнее, чем при помощи белковых ферментов, при наличии нуклеиновых кислот, размножение происходит в геометрической прогрессии и за сутки популяция может вырасти в 100 млн. раз. ^[1]

Это и есть практически граница между живым и не живым, структура рибозима – это всего около 50-100 нуклеотидов РНК. И тут встает важный вопрос – какая именно последовательность нуклеотидов превращает цепь РНК в рибозим, то есть в РНК, которое может самовоспроизводится. Если мы будем просто случайным образом создавать РНК, при длине в 50 нуклеотидов и 4 видах (A, G, C, U) – мы получим 4⁵⁰ вариаций, из которых менее 1 % ^{[Это просто предположительная оценка, точные данные даже оценочные неизвестны. На самом деле может быть на несколько порядков меньше.]} будут рибозимами, причем с достаточно разными характеристиками.

И теперь мы приходим к следующему фундаментальному вопросу геномики. Что определяет ту или иную функцию РНК (или белка)? И как эта функция связана с первичной структурой – нитью нуклеотидов РНК?

Дело в том, что РНК в виде растянутой нити в природе существует очень короткое время. И функционирует РНК, только лишь сворачиваясь в клубок (глобулу) и тем самым за счет атомных связей приобретает стабильную структуру. Поэтому любой вопрос геномики вида «почему это функционирует так или иначе» сводится к вопросу как именно свернуты био-элементы (РНК, белок). При этом наш вопрос с функциями рибозимов – это частный вопрос, но обладающий той особенностью, что касается самой простой, но в тоже время, самой фундаментальной функции – самовоспроизведения.

Итак, теперь мы имеем четкую биологическую задачу: «Выяснить какие именно и на сколько изменения в трехмерной структуре 50-100 нуклеотидной цепи РНК принципиально влияют на то, чтобы эта цепь РНК являлась рибозимом». Другими словами, какие мутации рибозима улучшают или ухудшают возможность саморепликации, вплоть до их отсутствия. И популяризуя – это и будет детальный ответ на вопрос, чем отличается живое от не живого.

Сразу скажем, что этот вопрос в данный момент практически “неподъемный” и мы его поставили лишь для того, чтобы понимать зачем и какой мы будем делать первый шаг к его разрешению и как и чем нам тут помогут методы ИИ.

Постановка биоинформационной задачи. Первый шаг заключается в том, чтобы найти трехмерную структуру РНК по первичной структуре, то есть выяснить траекторию её сворачивания. И сделать это нужно не in vivo (в живом организме), и не in vitro (в пробирке), а in silico – то есть, используя компьютерное моделирование эксперимента. При этом по возможности быстро и не тратя ресурсов на ЯМР (Ядерный магнитный резонанс), с помощью которого можно определять химическое строение веществ, конформации молекул, эффекты взаимного влияния, внутримолекулярные превращения и т.п. И в качестве тестовых примеров мы возьмем два вида вироидных рибозимов с классической структурой типа “головки молотка” (Hamerhead ribozyme).

* * *

Но прежде чем решать эту задачу, вернемся к вопросу о сохранении простоты логически-интуитивных законов. Это будет для нас дополнительным условием, которое будет порой важнее, чем собственно результат решения биоинформационной задачи. Описанная выше задача до сих пор решалась лишь случайным перебором, при этом достаточно было просто получить ответ.

Когда же мы говорим о логически-интуитивных законах, сам ответ нам становится, не столь важен, точнее это становится вторичным, а на первый план выходит процесс получения ответа. Когда вместо этого используется случайный перебор – этого процесса практически нет, точнее ни какая логика получения ответа не формируется.

Для формирования этой логики исследователями древности использовались простые эвристики, которые после удачной проверки в эксперименте становились законами. Но как было сказано в самом начале такие эвристики сейчас невозможны, так как детальность исследований на столько увеличилась, что любые эвристики, на которые способен человек будут, в лучшем случае, очень приближенными, а постановка столь большого количества экспериментов будет малооправдана из-за большой ресурсоемкости и трудозатратности.

Именно поэтому развиваются методы ИИ, которые строят сложные модели в ходе решения какой-то частной предметной задачи, из которых затем человеку в уже готовом виде выделяются логические правила, совокупность которых и является логически-интуитивным законом. Понятно, что даже вся совокупность простых законов несколько огрубляет модель, но это позволяет именно понять логику процесса в целом, а не точно решить частную задачу. А понимая логику процесса (в нашем примере – принципы сворачивания РНК) становится возможным предсказать ход процесса (в нашем примере – траекторию сворачивания), и постепенно улучшая опыт решения задач делать это все точнее и точнее. При этом заметим, что опыт приобретает человек, а вырабатывается он методами ИИ, то есть имеем реально усилитель интеллекта человека, благодаря чему возможны новые открытия в современном мире без потери понимания. И при этом ставя перед наукой ИИ такие фундаментальные и сложные проблемы, ответа на которые ни у кого нет, - мы бросаем этой науке вызов – а может ли она действительно усилить интеллектуальную деятельность человека, находя среди сложных взаимосвязей зависимых от последовательностей во времени и создаваемых этим частных окружающих условий – инвариантные правила, которые и являются основой научного знания.

Эта статья была изначально опубликована по адресу http://ru.vlab.wikia.com/wiki/Сергей_Яковлев:Статья:Геномика_бросает_вызов_искусственному_интеллекту,

и публикуется здесь с согласия автора и/или редакции.

Примечания

↑ Искусственные РНК копируют сами себя до бесконечности Биологи нашли древний РНК-механизм

См. также

Молекулярное моделирование
RNAFolding - проект разработки программного обеспечения молекулярного моделирования РНК, с элементами искусственного интеллекта.

[1] Искусственные РНК копируют сами себя до бесконечности Биологи нашли древний РНК-механизм

[1]