Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и обработка сигналов , позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологий по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий.

История

Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин «биоинформатика», определив его как изучение информационных процессов в биотических системах . Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах) .

В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание базы данных для хранения биологической информации

Последовательности . Компьютеры стали необходимыми в молекулярной биологии , когда белковые последовательности стали доступны после того, как Фредерик Сенгер определил последовательность инсулина в начале 1950-х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её «матерью и отцом биоинформатики». Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции.

Геномы . Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сенгера термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание баз данных для хранения биологической информации, такой как последовательности нуклеотидов (база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как «Исследование Нуклеиновых Кислот», который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году.

Цели

Главная цель биоинформатики - способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов , data mining , алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей , нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка , предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.

Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных.

Основные области исследований

Анализ генетических последовательностей

Оценка биологического разнообразия

Основные биоинформатические программы

  • ACT (Artemis Comparison Tool) - геномный анализ
  • Arlequin - анализ популяционно-генетических данных
  • Bioconductor - масштабный FLOSS -проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на .
  • BioEdit
  • BioNumerics - коммерческий универсальный пакет программ
  • BLAST - поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
  • Clustal - множественное выравнивание нуклеотидных и аминокислотных последовательностей
  • DnaSP - анализ полиморфизма последовательностей ДНК
  • FigTree - редактор филогенетических деревьев
  • Genepop
  • Genetix - популяционно-генетический анализ (программа доступна только на французском языке)
  • JalView - редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
  • MacClade - коммерческая программа для интерактивного эволюционного анализа данных
  • MEGA - молекулярно-эволюционный генетический анализ
  • Mesquite - программа для сравнительной биологии на языке Java
  • Muscle - множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
  • PAUP - филогенетический анализ с использованием метода парсимонии (и других методов)
  • PHYLIP - пакет филогенетических программ
  • Phylo_win - филогенетический анализ. Программа имеет графический интерфейс.
  • PopGene - анализ генетического разнообразия популяций
  • Populations - популяционно-генетический анализ
  • PSI Protein Classifier - обобщение результатов, полученных с помощью программы PSI-BLAST
  • Seaview - филогенетический анализ (с графическим интерфейсом)
  • Sequin - депонирование последовательностей в GenBank , EMBL , DDBJ
  • SPAdes - сборщик бактериальных геномов
  • SplitsTree - программа для построения филогенетических деревьев
  • T-Coffee - множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW /ClustalX .
  • UGENE - свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.

Методы биоинформатики. Научная электронная библиотека. Что это такое

Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.

Почему биология перестала справляться без информатики и при чем тут рак

Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.

ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.

Биоинформатика - это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.

Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.

Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.

Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.

Биоинформатика в ЕРАМ

В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов - от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.

Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.

Как становятся биоинформатиками

Мария Зуева, разработчик:

«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.

Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».

«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.

Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».

Как читают геном

Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.

Михаил Альперович, глава юнита биоинформатики:

«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.

Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.

Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.

Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».

Для анализа берут образец, в котором находится много клеток - а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.

Геннадий Захаров:

«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».

Биоинформатика: производство и опенсорс

У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).

Проект №1: вариант-коллер

Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.

Исходный код программы доступен на GitHub .

Проект №2: 3D-просмотрщик молекул

Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.

Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.

Программа только готовится к публикации на GitHub, зато пока есть , по которой можно посмотреть ее демо-версию.

Как выглядит работа с приложением, можно узнать из видео .

Проект №3: геномный браузер NGB

Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.

Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.

Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.

Геннадий Захаров, бизнес-аналитик:

«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.

В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.

Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».

Как изучать биоинформатику

Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:

Все знают, что биоинформатика - это как-то связано с компьютерами, ДНК и белками и что это передний край науки. Более подробными сведениями может похвастаться далеко не каждый даже среди биологов. О некоторых задачах, которые решает современная биоинформатика, рассказал «Химии и жизни» Михаил Сергеевич Гельфанд (интервью записала Елена Клещенко).

Информация в биологии

В последние десятилетия появилось много новых научных дисциплин с модными названиями: биоинформатика, геномика, протеомика, системная биология и другие. Но по сути, биоинформатика, также как и, скажем, протеомика, - не наука, а несколько удобных технологий и набор конкретных задач, которые решают с их помощью. Можно говорить, что каждый человек, который определяет концентрации белков методом масс-спектрометрии или изучает белок-белковые взаимодействия, работает в области протеомики. Но не исключено, что со временем это деление станет не таким важным: применяемая технология будет менее существенной, чем способ думать, ставить вопросы. И в этом смысле биоинформатика как самая древняя из этих наук - ей целых 25 лет - играет роль цементирующего начала, потому что независимо от того, каким способом получены данные, все равно они потом попадают в компьютер. Иначе быть не может: размер бактериального генома - миллионы нуклеотидов, высшего животного - сотни миллионов или миллиарды. Транскриптомика, изучающая активность генов, получает данные о концентрациях десятков тысяч матричных РНК, протеомика - о сотнях тысяч пептидов и белок-белковых взаимодействиях. С таким количеством информации нельзя работать вручную. Мы еще помним, как печатали на бумаге нуклеотидные последовательности, потом вырезали напечатанные строчки, подставляли друг под друга и таким кустарным способом делали выравнивание - искали сходные участки. Это было возможно, когда речь шла о десятках-сотнях нуклеотидов или аминокислот, но при современном объеме данных нужны специальные инструменты. Набор таких инструментов и предоставляет биоинформатика - в практическом плане это прикладная наука, обслуживающая интересы биологов.

Поскольку моя собственная работа связана в основном с анализом геномных данных, далее речь пойдет главным образом о геномике. Объемы данных еще до появления последнего поколения секвенаторов начали обгонять закон Мура: нуклеотидные последовательности геномов накапливались быстрее, чем росла мощность компьютеров. Не будет большим преувеличением сказать, что за последние годы биология начала превращаться в науку, «богатую данными». Условно говоря, в «классической» молекулярной биологии в одном эксперименте устанавливался один биологический факт: аминокислотная последовательность белка, его функция, то, как регулируется соответствующий ген. А теперь такого рода факты получаются индустриально. Молекулярная биология движется по пути, по которому уже прошли астрофизика и физика высоких энергий. Когда имеется постоянно работающий радиотелескоп или ускоритель, проблема добычи данных решена, и на первый план выступают проблемы их хранения и обработки.

С биологией происходит то же самое, причем очень быстро, и не всегда бывает легко перестроиться. Однако те, кому это удается, оказываются в выигрыше. На нашем семинаре один биолог рассказывал, как они с коллегами изучали некий белок традиционными методами экспериментальной биологии. Это сложная задача: зная, что в клетке выполняется определенная функция, найти белок, который за нее отвечает. Они нашли этот белок, занялись его изучением и убедились, что должен существовать другой белок с подобными свойствами, поскольку наличие первого объясняет не все наблюдаемые факты. Искать второй белок на фоне первого было еще более сложно, но они справились и с этим. А затем был опубликован геном человека - и, получив доступ к его последовательности, они нашли еще дюжину таких белков...

Из этого примера вовсе не следует, что практическая молекулярная биология себя исчерпала. Скорее она научилась пользоваться новыми инструментами: интерпретировать не только полоски в геле после электрофореза, концентрации мРНК и белков или, скажем, скорость роста бактерий, но и колоссальные массивы данных, хранящиеся в компьютере. Заметим, что элемент интерпретации неизбежно присутствует и в классической биологии. Когда исследователь утверждает, что белок А запускает транскрипцию гена В, он не наблюдает напрямую, как белок взаимодействует с регуляторной областью гена, а делает такой вывод из расположения полосок на геле и других экспериментальных данных. В биоинформатике, по сути, та же ситуация, только возведенная в абсолют: готовые данные лежат в компьютере, и среди них нужно отыскать пазлы, из которых получится собрать картинку.

К области технической биоинформатики относится первичная обработка данных. Секвенатор не сам «читает» молекулы ДНК, а дает на выходе кривые флуоресценции, пики на которых еще нужно превратить в нуклеотидную последовательность. Эта задача решается каждый раз по-новому для нового устройства секвенирования, и решает ее биоинформатика. Кроме того, как уже говорилось, полученные данные надо где-то хранить, обеспечивать к ним удобный доступ и т. д. Все это чисто технические проблемы, но они очень важны.

Более сложное и интересное занятие биоинформатиков - получать на основе данных о геноме конкретные утверждения: белок А обладает такой-то функцией, ген В включается в таких-то условиях, гены С, D и Е экспрессируются в одно и то же время, а продукты их образуют комплекс. Именно этим занимаемся мы, и в этом состоит практическое применение нашей науки. Для нас пользователи - другие биологи, которым мы сообщаем интересные для них факты.

Расположение и регуляция

Как можно из последовательности нуклеотидов делать выводы о функции белков и генов? Первое соображение кажется банальным: если белок похож на какой-нибудь другой, уже изученный, то с большой вероятностью он делает примерно то же самое. На самом деле оно не так уж банально: первым серьезным успехом в этом направлении биоинформатики было утверждение, что вирусные онкогены - это «испорченные» гены самого организма.

Выполнить подобное сравнение сейчас уже несложно. Существуют банки данных по нуклеотидным и белковым последовательностям (подробнее о них рассказывалось в «Химии и жизни», 2001, №2). Общее представление о том, как это должно быть устроено, появилось в конце 80-х годов, и в этом смысле биоинформатика была готова к потоку геномных данных. Сегодня это стандартный интернет-сервис: вы загружаете свою последовательность в окошко, нажимаете кнопку, и через несколько секунд вам сообщают, на какие последовательности из этой базы она похожа.

Дальше начинаются более тонкие соображения. Известно, например, что у бактерий гены часто бывают организованы в опероны, то есть транскрибируются в виде одной матричной РНК. Есть разные эволюционные теории, которые объясняют, почему так получилось, что функционально связанные гены образуют оперон. Первая теория состоит в том, что это удобно и полезно, потому и поддерживается эволюцией. Если белки имеют общую функцию, например, отвечают за разные этапы переработки одного вещества, логично, чтобы они появлялись в клетке одновременно, по одному и тому же сигналу (естественно, что при общей мРНК и регуляция одна на всех) и в равном количестве. Второе утверждение менее тривиально и более красиво. Генам, продукты которых имеют связанные функции, выгодно находиться рядом из-за горизонтального переноса. Это очень существенный механизм эволюции бактерий: участки генома одной бактерии попадают в другую, которая благодаря этому может приобрести новые полезные признаки. Понятно, что, если в новый геном переместится лишь один ген метаболического пути, то соответствующий белок будет бесполезен: субстрата для катализируемой им реакции нет, а ее продукт, в свою очередь, некому перерабатывать. Дополнительным подтверждением этой теории служит то, что у бактерий бывают геномные локусы, в которых гены из одного метаболического пути лежат на разных цепях ДНК и потому транскрибируются в разных направлениях. Здесь точно играет главную роль повышенная вероятность совместного переноса.

Тот факт, что два гена находятся рядом в каком-то одном геноме, не очень много говорит про их функциональную связь, это может быть и случайность. Однако мы умеем отождествлять гены в разных организмах. Последовательности у них, конечно, не совпадают до нуклеотида, а могут различаться довольно значительно. Но есть некие правила, которые позволяют утверждать, что это один и тот же ген, скажем, у кишечной и у сенной палочки. Итак, если пара генов находится рядом не в одном геноме, а в пятидесяти, причем у представителей разных таксономических групп (то есть это расположение не просто унаследовано от общего предка), - это означает, что они действительно тяготеют друг к другу. Если бы эволюция не поддерживала их близкого расположения, оно не сохранилось бы. И значит, можно предположить, что они функционально связаны.

Второе соображение похоже на первое. Не все бактерии имеют одинаковый набор генов: к примеру, если ген кодирует фермент, нужный для переработки какого-то углевода, то его не будет у бактерии, которая этим углеводом не питается. Зато у бактерии, которая питается именно этим углеводом, будет весь необходимый набор: и ферменты, и белок-транспортер, переносящий углевод внутрь клетки. Функционально связанные гены присутствуют в геноме по принципу «все или ничего»: как уже говорилось, бессмысленно иметь лишь фрагмент метаболического пути, а бактерии - существа экономные, то, что не приносит пользы, из их генома быстро исчезает. Поэтому если сделать таблицу, где по строкам расположить различные гены, а по столбцам - разные геномы, и отметить плюсами и минусами гены, присутствующие или отсутствующие в данном геноме, мы увидим группы генов, обслуживающих одну и ту же функцию. И неизвестный ген с тем же набором плюсов и минусов, что у некой группы, скорее всего, можно приписать к ней же.

Третье соображение связано с регуляцией активности генов. Рядом с геном обычно присутствуют участки, с которыми взаимодействуют определенные белки - они могут запускать транскрипцию, блокировать ее, управлять ее интенсивностью, иначе говоря, от них зависит активность гена в каждый момент времени. Некоторые регуляторные участки очень хорошо опознаются по характерным последовательностям «букв», но это бывает редко. Например, участки связывания факторов транскрипции мы распознаем в геномах с невысокой точностью и вместе с правильными сайтами нагребаем кучу «мусора» - похожие коротенькие участки, которые на самом деле не имеют отношения к регуляции генов. Но поскольку совместно регулируются те гены, которые совместно работают, настоящие сайты связывания находятся перед одними и теми же генами в десятке геномов, а случайные - раскиданы там и сям, и никакой закономерности в их расположении не прослеживается. Получается мощный фильтр, позволяющий отсеять «мусор». И если перед геном с неизвестной функцией устойчиво обнаруживается знакомый сайт, будет ясно, что этот ген регулируется в составе функциональной подсистемы, которая регулируется тем же регулятором и обеспечивает ту же функцию.

Мне интереснее всего изучать эволюцию регуляторных систем, но побочным продуктом при этом бывает множество функциональных предсказаний. Исследование развивается как детектив: каждое соображение по отдельности очень мелкое, но если «улик» много и они все попадают в одну точку, то можно делать уверенные утверждения. Был случай, когда мы подробно описали регуляторную систему - фактор транскрипции, сайты его связывания, то, что это будет репрессор, а не активатор, то, что связывание будет требовать кооперативного взаимодействия двух димеров, - просто глядя на буковки генома. Впоследствии все это вплоть до деталей оказалось правильным.

Рибосома как депо цинка

В одной из таких работ центральную роль сыграла Екатерина Панина, на тот момент студентка мехмата МГУ (потом она поступила в аспирантуру Калифорнийского университета Лос-Анджелеса и стала настоящим биологом-экспериментатором). Она пришла к нам на третьем курсе и сказала, что хочет заниматься такой биологией. К окончанию мехмата у нее было опубликовано несколько статьей в серьезных журналах.

Бактериальной клетке нужны ионы цинка: они, например, входят в состав некоторых ферментов как кофакторы. Соответственно есть и молекулярная машинерия, которая обслуживает все процессы, связанные с цинком. Мы изучали цинковый репрессор (в больших количествах цинк ядовит для клетки, поэтому выключать его транспорт при достаточных концентрациях не менее важно, чем уметь добывать его из окружающей среды), используя идеологию, о которой рассказывалось в предыдущей главке. Если перед геном имеется потенциальный сайт цинкового репрессора, то этот ген, возможно, относится к метаболизму цинка. Именно таким образом мы в свое время «вычислили» цинковый транспортер - трансмембранный белок, который обеспечивает проникновение цинка внутрь клетки.

Так вот, в 2002 году Катя обратила внимание, что потенциальные сайты цинкового репрессора почему-то часто попадаются перед генами рибосомных белков. Она поделилась этим наблюдением с научным руководителем, и я сказал, что, поскольку в геноме больше сотни генов рибосомных белков, а сайты встречались перед разными генами, это случайность. Но Катя в случайность не поверила и нашла статью Евгения Кунина (о его модели происхождения клетки см. в статье М. А. Шкроб в августовском номере), которая была опубликована незадолго до этого. Там было показано, что некоторые рибосомные белки содержат мотив связывания цинка - так называемую цинковую ленту, три или четыре цистеина на правильном расстоянии друг относительно друга и в правильном контексте. Важное наблюдение Кунина с коллегами состояло в том, что один и тот же белок в некоторых организмах имеет эти цинковые мотивы, в других - не имеет, но, судя по всему, нормально функционирует и без цинка. А у некоторых бактерий один и тот же белок имеется в двух вариантах, с цинковой лентой и без нее.

И вот Катя заметила, что в последнем случае, когда есть два варианта белка в одном геноме, тот, который без цинковой ленты, репрессируется цинковым репрессором. Иначе говоря, в присутствии цинка экспрессируется вариант белка, которому цинк нужен, а в отсутствие цинка - тот, которому он не нужен.

Основа существования любой клетки - тяжелая промышленность, производство средств производства, точно так, как нас учили на лекциях по политэкономии социализма. Около 70% белка клетки - это белки рибосом, то есть органелл, которые нужны, чтобы делать другие белки. С другой стороны, цинк - кофактор ферментов, жизненно важных для клетки, таких, например, как ДНК-полимераза. Если цинка становится мало, его полностью забирают себе рибосомные белки, ферментам ничего не остается, и клетка погибает. Но у клетки есть резервная копия рибосомного белка, которому цинк не нужен. Мы предположили, что клетка включает синтез таких белков в условиях дефицита цинка и они встраиваются в часть рибосом на место цинксодержащих белков. При этом какое-то количество цинка высвобождается. Может быть, рибосомы после этого работают чуть менее эффективно, может быть, и вообще не работают - но ради того, чтобы цинка хватило жизненно важным ферментам, которые представлены существенно меньшим числом копий, стоит пожертвовать небольшой долей рибосом.

Мы написали статью, но в течение года ни один уважаемый журнал не принял к публикации безумную теорию о рибосомах как депо цинка. Однако мне Катина находка казалась очень красивой, и я единственный раз в жизни воспользовался тем, что мой дед, как член Академии наук США, имеет право представлять статьи для публикации в «Proceedings of the National Academy of Sciences of the USA ». Он послал статью на рецензию Кунину, который дал положительный отзыв (и, кажется, кому-то еще). Статья вышла в PNAS, и, как вскоре выяснилось, очень вовремя: через полгода появилась статья японских биологов, которые экспериментально показали то же самое. Можно догадаться, что они над этим работали давно, и, вероятно, им было немного обидно, что компьютерное предсказание предвосхитило их результаты.

Заметим, что вся эта история построена на очень мелких частных наблюдениях (есть в белке цистеины - нет цистеинов, есть потенциальный сайт репрессора - нет сайта...). Но в совокупности эти мелочи позволили сделать нетривиальное заключение, оказавшееся абсолютно верным. Вообще, когда мы публикуем статьи, то стараемся как можно более четко сказать, какое из наших предсказаний считаем надежным, а какое может оказаться неправильным. Так вот, среди тех, в которых мы были уверены, неправильных пока не оказалось ни одного (проверены уже десятки), а вот среди слабых проколы действительно были, хотя тоже не часто.

Отвертка со съемным жалом

Не менее красивыми были работы с белками-транспортерами (я в них участвовал только на ранних стадиях, поэтому имею полное право их хвалить, не становясь хвастуном). Транспортеры - золотое дно для биоинформатиков, поскольку опознать транспортер, в особенности бактериальный, достаточно легко. У них есть несколько гидрофобных спиралей, проходящих через мембрану: между ними находится канал, сквозь который ион или молекула, нужные для жизни клетки, проникают внутрь. Трансмембранные сегменты можно найти в белковой последовательности с помощью специальных программ. И если в неизвестном бактериальном белке пять или шесть таких сегментов, это почти наверняка транспортер (потому что другие трансмембранные белки, например участники дыхательной цепи или родопсин, хорошо известны). Остается установить, что за вещество он переносит.

Изучать специфичность транспортеров в эксперименте - удовольствие ниже среднего. С ферментами гораздо проще, это практически рутинная задача, которую можно доверить роботу. Вы гиперэкспрессируете фермент (то есть заставляете синтезироваться в больших количествах), а потом предлагаете ему пять сотен разных субстратов и смотрите, с каким из них пойдет реакция.

Транспортер, конечно, тоже можно гиперэкспрессировать. Но чтобы он заработал, он должен сразу встроиться в мембрану, иначе гидрофобные сегменты «налипнут» друг на друга, белок образует нефункциональные агрегаты. Поэтому приходится делать множество мембранных пузырьков-везикул, встраивать в них белки в правильной ориентации, а потом смотреть, попадает ли искомое вещество внутрь везикул. Вдобавок транспортеры бывают разные. Одни закачивают в клетку полезные вещества против градиента концентрации и затрачивают на это энергию молекулы АТФ, которую расщепляет специальный белок - АТФаза. Другие осуществляют вторичный транспорт - впуская «нужную» молекулу, одновременно выпускают по градиенту концентрации ион водорода, калия или натрия. Если транспортер АТФ-зависимый, то, чтобы он заработал, необходимо собирать конструкцию из нескольких белков, в том числе АТФазы. А если это вторичный транспорт, то нужно еще угадать, концентрацию какого иона надо увеличить внутри шарика. Отсюда ясно, что биохимия транспортеров - наука для сильных духом и экспериментальных данных по ним мало.

С другой стороны, определять специфичность транспортеров биоинформационными методами существенно проще. Достаточно прибегнуть к уже знакомой логике: например, если синтез этого белка регулируется цинковым репрессором, это, скорее всего, и будет цинковый транспортер, а если его ген находится в одном локусе с генами катаболизма рибозы, он, очевидно, переносит внутрь клетки рибозу... Именно таким образом мы в свое время нашли рибофлавиновый транспортер: имеется белок с неизвестной функцией, у него шесть потенциальных трансмембранных сегментов, регулируется совместно с генами рибофлавинового пути - значит, это транспортер либо рибофлавина, либо его предшественника. Но поскольку в некоторых геномах присутствовали и этот транспортер, и рибофлавин-зависимые белки, но не было пути синтеза рибофлавина из предшественников, значит, это мог быть транспортер только рибофлавина.

Проверять экспериментально конкретное предсказание существенно проще, чем начинать с нуля. Я всегда объясняю студентам, что биоинформатик - существо совершенно беззащитное, наподобие того персонажа приключенческого романа, который знает, где лежит клад. Пока он молчит, все его берегут и за ним ухаживают, но, когда он проговорится, он уже не нужен. Как только биоинформатик сказал «этот белок обладает такой-то функцией» - исключительно от порядочности экспериментаторов зависит, возьмут ли они его в соавторы после того, как проверят это утверждение. А утверждения, как читатель уже убедился, предельно простые и конкретные, достаточно один раз произнести их вслух.

С таких же простых умозаключений начиналась история более сложная, но и более интересная. Мы изучали регуляцию пути биосинтеза биотина (биотин - витамин Н, или В7, кофактор многих важных ферментов). Биотиновый транспортер был в это время не известен. У нас по ходу работы обнаружился транспортный белок, который регулируется, а иногда и локализуется вместе с генами биотинового пути. Дальше все как с рибофлавином: нашлись организмы, где биотинового пути нет, но есть белки, которые зависят него как от кофактора, и есть тот самый потенциальный транспортер - следовательно, это транспортер биотина.

Как уже было сказано, транспортеры бывают АТФ-зависимые и осуществляющие вторичный транспорт. Биотиновый транспортер был одиноким, никакого гена АТФазы поблизости не просматривалось, а значит, это был вторичный транспортер. Но затем мы увидели, что в некоторых геномах рядом с биотиновым транспортером попадаются какие-то АТФазы. Что это означает, на том этапе было непонятно, и потому мы просто упомянули про это в статье одной фразой.

Примерно тогда же мы изучали регуляцию кобаламинового пути. Кобаламин, или витамин В12, -также кофактор важных ферментов, очень крупная молекула с метаболическим путем соответственной сложности. Для этой истории существенно, что в центре молекулы кобаламина есть ион кобальта, который приносят в клетку опять же транспортеры. Таких транспортеров мы нашли немало, опубликовали о них статью - и в скором времени получили письмо от Томаса Эйтингера из Института микробиологии Гумбольдтовского университета (Берлин). Он призывал нас обратить внимание на то, что любой кобальтовый транспортер также может транспортировать никель, и наоборот, потому что специфичность у них слабая. Мы ответили, что рассматриваем транспортеры с точки зрения их функциональной роли в клетке, и если ген белка находится в одном опероне с большим набором генов кобаламинового синтеза - безусловно, белок нужен клетке как транспортер кобальта, хотя in vitro его и можно заставить переносить никель. А если мы видим ген транспортера в одном опероне с никель-зависимой уреазой, то это, безусловно, никелевый транспортер.

Намечались перспективы совместной работы, и Дмитрий Родионов, который делал эту работу, подал вместе с немецкими коллегами заявку на небольшой совместный грант и поехал на три месяца в Берлин. (Дмитрий закончил МИФИ, после чего занимался у нас геномикой; потом работал в США, а сейчас выиграл грант академической программы «Молекулярная и клеточная биология» на создание новой группы и возвращается в Москву.)

К этому времени мы с ними начали делать (по электронной почте) большой проект по сравнительной геномике транспортеров никеля и кобальта, где классифицировали их, во-первых, по регуляции, а во-вторых, по локализации, совместной с кобальтовыми или никелевыми функциональными белками. Так вот, в одном из этих никелево-кобальтовых семейств наблюдались некоторые странности. С одной стороны, АТФазы и трансмембранные белки, образующие канал для иона, как положено, располагались рядом и регулировались совместно. С другой стороны, в том же опероне мог находиться еще один трансмембранный белок. Причем эти «посторонние» белки в кобальтовых и никелевых транспортных системах отличались довольно сильно, не были гомологичными в отличие от АТФаз и трансмембранников. И вдобавок АТФаза и трансмембранный белок оказались гомологичными тем самым «лишним» биотиновым белкам, которые то попадались, то нет в предыдущем исследовании.

До сих пор не знаю, каким способом Дима уговорил немецких коллег на следующий безумный эксперимент. «Классическим» биохимикам, которые всю жизнь изучают транспорт кобальта и никеля у бактерий, он предложил: давайте у транспортера отключим АТФазу и трансмембранный белок, гомологичные биотиновым, оставим один только уникальный компонент. Ведь биотиновому транспортеру АТФаза и «основной» трансмембранник не очень нужны, они то есть, то их нет, - может быть, они и никелевому транспортеру не нужны, одинокий негомологичный трансмембранник и сам справится? Неизвестно, почему добропорядочные немецкие биохимики решились на это странное деяние: лишить вроде бы обычный АТФ-зависимый транспортер АТФазы и посмотреть, что будет. Так или иначе, Дима оказался прав. Одинокий трансмембранник работал как кобальтовый транспортер - менее эффективно, но работал. Это был первый пример двойной системы, которая, если есть АТФаза, работает какАТФ-зависимая, а если ее нет, работает как ион-зависимая.

Позднее берлинские коллеги то же самое сделали с биотином: взяли бактерию, у которой биотиновый транспортер имеет АТФазу и трансмембранник, отключили их гены - и показали, что этот белок в одиночестве тоже работает как биотиновый транспортер, хотя и с меньшей мощностью, чем в присутствии АТФазы.

Дмитрий Родионов в это время уже работал постдоком в лаборатории Андрея Остермана в Институте медицинских исследований Бэрнема в Ла-Хойе. Остерман - замечательный человек, биохимик, который понял эффективность биоинформатических методов, научился ими пользоваться и нашел с их помощью множество новых ферментов. И вот, когда Дмитрий попал в круг биохимиков и начал с ними общаться, оказалось, что подобных транспортеров, переносящих разные субстраты - кофакторы, аминокислоты, ионы, - существует несколько десятков. (Кстати, таким же оказался и рибофлавиновый транспортер.) Разные исследовательские группы независимо друг от друга изучали эти транспортеры, не имея представления о том, что они принадлежат к одному семейству.

Стало понятным и то, как возможна подобная организация. Кобальтовые и никелевые транспортеры отдельно от своей АТФазы не встречаются (если ее не убрать экспериментально). Но есть и другой класс бактериальных транспортеров, которые используют одну и ту же АТФазу - как отвертку со съемным жалом. Универсальные АТФаза и трансмембранный белок в этом случае могут кодироваться вместе с рибосомными белками, то есть экспрессируются постоянно и в больших количествах. А те белки, которые обеспечивают транспортерам специфичность, раскиданы там и сям в соответствующих оперонах. А в отсутствие АТФазы такой белок худо-бедно работает как вторичный транспортер, и поэтому в геномах некоторых организмов мы видим только его.

Биоинформатика и теория эволюции

Однако эти «прикладные» открытия - дело очень важное и полезное, но для нас, биоинформатиков, не главное. А главное, что принесла нам индустриальная революция в биологии, - появилась возможность на другом уровне обсуждать эволюцию. Даже банальные утверждения, скажем, о процентном сходстве геномов человека и шимпанзе нетактривиальны, как могут показаться. Молекулярная эволюция поучительна тем, что на ней замечательно выполняются дарвинистские представления о природе вещей.

Данные, полученные молекулярными биологами, теперь оказывают серьезное влияние на таксономию - классификацию растений и животных. Поначалу ботаники и зоологи скептически относились к молекулярным генеалогическим деревьям, показывающим степень родства между видами на основе сравнения нуклеотидных последовательностей, но надо признать, что и первые молекулярные деревья были не слишком удачными. Сейчас прямо на глазах происходит конвергенция - классическая и молекулярная таксономии движутся навстречу друг другу. Уже понятно, что молекулярные деревья, если они построены с соблюдением определенных правил, достаточно близки к реальности и вполне могут стать поводом для пересмотра ортодоксальных таксономических представлений, основанных на морфологии - сравнении внешних черт организмов. И, как ни странно, оказывается, что у видов, которых будто бы насильно помещают вместе исходя из сходства их генов, действительно отыскиваются общие признаки. Получается, что хорошее молекулярное дерево не противоречит морфологической конструкции, просто другие признаки оказываются ведущими.

Что касается бактерий, то в эпоху классической биологии их классифицировали по форме клеток и по метаболическим свойствам: какие сахара они могут утилизировать, какие аминокислоты и кофакторы могут синтезировать сами, а в каких нуждаются как в составной части внешней среды и т. п. Эта таксономия была очень слабой, поскольку у бактерий по сравнению с высшими организмами очень мало морфологических и функциональных признаков. Сегодня таксономия бактерий, по-видимому, полностью основывается на молекулярных данных. В массовом порядке пересматриваются видовые названия. Но самым впечатляющим достижением в этой области была, конечно, работа Карла Вёзе, который в 1977 году на основании молекулярной таксономии постулировал существование архебактерий (сейчас их называют археями) - третьего домена жизни, отличного от эукариот и «настоящих» бактерий.

Нельзя сказать, что все проблемы систематики бактерий отныне решены. В значительной мере оказалось разрушенным представление о том, что такое бактериальный вид. Обнаружилось, например, что у двух штаммов кишечной палочки - представителей одного вида - до трети генов могут быть уникальными, то есть присутствовать в одном штамме и отсутствовать в другом. Много неожиданного и интересного уже известно о бактериальной эволюции. В частности, оказалось, что горизонтальный перенос - обмен генетическим материалом - может происходить между таксономически далекими существами. Например, Metanosarcina - типичная архея, но треть ее генов имеют бактериальное происхождение, и эти гены обслуживают практически весь ее метаболизм, в то время как механизмы транскрипции, трансляции, репликация, устройство мембраны у метаносарцины характерны для архей. По этому примеру можно судить о том, насколько увлекательно сейчас заниматься эволюцией бактерий.

На мой взгляд, самое интересное - это эволюция регуляторных систем. Мы достаточно много знаем про эти системы у бактерий и можем представить, как меняются регуляторные системы, как локальный регулятор вдруг начинает управлять десятками генов или меняет специфичность, как перестраиваются регуляторные каскады. И это может быть очень важно с фундаментальной точки зрения, потому что здесь можно пойти гораздо дальше. Отличие человека от шимпанзе или даже от мыши едва ли обусловлено набором генов: они у млекопитающих практически одни и те же, если сравнивать по набору функций. Причина скорее в регуляции: какие гены, когда и в каких тканях активны.

Скорее всего, «скачки» эволюции, любые резкие изменения морфологических признаков обеспечиваются как раз на уровне регуляции. Мы уже знаем такие примеры у бактерий, дрожжей и других относительно простых организмов. У большинства бактерий имеется один железный репрессор, который реагирует на присутствие ионов железа и регулирует множество генов: белки, обеспечивающие запасание и транспорт железа, железозависимые ферменты. А у других бактерий есть три разных репрессора, которые эти функциональные группы поделили: одни регулируют запасание железа, другие транспорт и синтез, третьи - ферменты. Это на самом деле радикальное изменение, был один ответ на железо, а получилось три разных.

Есть замечательные экспериментальные работы, выполненные на многоклеточных. Почему морской еж единственный среди иглокожих имеет твердый скелет? Ответ предложил Эрик Дэвидсон из Калифорнийского технологического института. Он изучил регуляторный каскад, который отвечает за развитие этого скелета, а потом нашел этот каскад у морской звезды, только у нее он включается существенно позднее, поэтому развиваются лишь основания иголочек, не соединенные между собой. У ежа тот же каскад включается на какое-то количество клеточных делений раньше, соответственно захватывает большее число клеток, и развивается сплошной скелет. Таким образом, чисто регуляторное изменение дает абсолютно новый признак.

У меня есть надежда, что сравнительный анализ регуляции даст ответы на вопрос, который беспокоит палеонтологов и морфологов на нынешнем этапе развития синтетической теории эволюции: каким образом накопление мелких изменений дает радикально новые признаки? Похоже, что это можно объяснить перенастройкой регуляции. Мы уже умеем это делать на простых организмах, но рано или поздно очередь дойдет и до более сложных. И когда это случится, произойдет третий большой прорыв в этом направлении, если первым считать дарвиновский естественный отбор, а вторым - соединение эволюционной биологии с генетикой.

Что такое биоинформатика? Является ли она наукой и что исследует? Как новая дисциплина связана с изучением процессов эволюции и в какой зависимости между собой находятся молекулярная биология и большие объемы данных? На эти вопросы отвечает доктор биологических наук Михаил Гельфанд.

Следует сразу сказать, что пока у нас нет точного определения понятия биоинформатики. Это не наука в классическом смысле слова, а набор конкретных способов обработки данных. В этом смысле биоинформатика похожа на генную инженерию, опирающуюся в основном на практические исследования. Однако невозможность точно сформулировать определение понятия биоинформатики никак не влияет на оценку важности этого метода биологических исследований – за последние 10-15 лет роль информации и способов ее обработки выросла настолько, что сегодня трудно представить себе современную биологическую лабораторию без специалистов в этой области.

Появление колоссального количества совершенно новых данных требует адекватных алгоритмов их обработки: нужно понять, как оптимально эти данные передавать, анализировать и хранить. С другой стороны, улучшение вычислительных мощностей компьютеров, повышение их быстродействия, позволяет ставить новые задачи – и здесь специалистам в области биоинформатики отводится ключевая роль.

Реальные эксперименты в биологической лаборатории требуют времени и денег. И возможность моделировать их с использованием возможностей компьютеров открывает перед исследователями новые возможности.

Работа с большими объемами данных позволяет делать выводы о функционировании генов или белков организма в целом. Здесь возникает довольно интересная ситуация: на микроуровне анализа отдельных элементов конкретные данные могут оказаться неверными, однако, взятые в совокупности, они дают адекватное представление о процессах, интересующих исследователей. Нам надо понять, какие выводы мы должны сделать из этого феномена, уже известного в других областях знаний.

Забавно, что часто экспериментаторы осознают, что в каждом конкретном случае они немного привирают и игнорируют важные факты – но при этом в результате общие выводы при анализе множества наборов данных оказываются достаточно близкими.

Мой личный опыт состоит в том, что после написания первой большой статьи по системной биологии в соавторстве с Филиппом Хайтовичем, статьи других групп в этой же области я стал читать совершенно другими глазами. Уже как-то на автомате я начал видеть, что вот здесь произвольный порог, можно было по-другому, проверили на устойчивость, не проверили - такого сорта вещи. Это то, чему я стараюсь учить своих студентов.

Биоинформатика предоставляет возможности анализа больших объемов данных и виртуального моделирования процессов взаимодействия белков и взаиморегуляции генов. Теперь, на основе этого анализа, мы можем давать конкретные прогнозы этих взаимодействий и проверять их достоверность.

В хорошо изученных областях, таких как анализ метаболизма, биоинформатика позволяет достичь более наглядных результатов: например, улучшить работу биотехнологических штаммов. В области эмбриогенеза, изучающего взаимодействие генов и определяющего «поведение» и развитие клеток в зависимости от их расположения в эмбрионе, продуманных и работающих моделей меньше – но и они начинают постепенно появляться.

Хорошая модель – это модель, опирающаяся на числовые показатели. Благодаря такой модели исследователи могут проверить, насколько хорошо они понимают, что делают. Пока такое моделирование находится в процессе становления, но ему уделяется все большее внимание ученых.
Сегодня мы уже умеем предсказывать конкретные функции генов и белков, процессы их взаиморегуляции и реакций на различные воздействия. Мы можем находить их новые функции, о которых раньше даже не подозревали. Глядя в экран компьютера, мы даем совершенно конкретные прогнозы о том, как «поведет себя» тот или иной белок. После этого появляется экспериментатор и проверяет, насколько мы были правы или ошибались. И поскольку мы даем множество предсказаний, ставки в этой «игре» все время повышаются.

Если же говорить о существующей уже десятки лет молекулярной биологии и проверке функций белков и регуляторных взаимодействий, биоинформатика помогает решать задачи этой науки более эффективно. Скажем, у вас есть белок с непонятными функциями – и понять, какой опыт надо поставить, чтобы разобраться, что он делает, очень непросто. Если же у вас есть конкретное предсказание, вы ставите вполне определенный опыт, чтобы подтвердить его или опровергнуть. И оказывается, что с помощью биоинформатики можно делать нетривиальные прогнозы: не просто предсказывать поведения белков на основе их схожести, а найти целый класс белков с совершенно особыми функциями и принципиально другими механизмами действия. И все это –опираясь только на компьютерную обработку данных!

Возвращаясь к биоинформатике как к науке – потому что, вопреки сказанному мной в начале статьи, это именно наука – она существует уже давно, просто под другим названием: эволюционная молекулярная биология. В основе методологии биоинформатики лежит традиционный эволюционный подход, дополненный новыми достижениями компьютерной обработки информации.

Наша цель – понять, «как все устроено», обратившись во времени на миллиарды лет назад.
Есть исследователи, специализирующиеся на изучении ранних этапов происхождения жизни и анализирующие современные геномы в сопоставлении с геохимическими данными. Один из них, Армен Мулкиджанян, делает следующее: вместе с коллегами он смотрит, как распределяются в современных геномах белки, нуждающиеся для своего функционирования в металлах. Затем они определяют, когда эти семейства белков появились в ходе эволюции, на каких внутренних узлах эволюционного дерева возникли. А потом – изучают состояние мирового океана или суши в тот период, понимают, какие металлы были распространены, а какие нет, опираясь на данные геохимии и делают выводы о времени и причинах появления конкретных белков.

Похожие эксперименты проводятся в Астробиологическом институте NASA, в Соединенных Штатах. Анализируя последовательности современных белков, ученые реконструируют аналогичные последовательности белков древних и понимают, при какой именно температуре они функционировали оптимально. И оказывается, что полученные результаты совпадают с данными о температуре Мирового океана, оцененными совершенно иными, классическими методами геологии. Таких впечатляющих исследований будет появляться все больше и больше.
У биоинформатики отличные перспективы развития – она все более востребована, ведь новые данные для анализа прибывают со все возрастающей скоростью, а значит можно ставить новые задачи по предсказанию функций белков. Теперь мы можем изучать эволюцию регуляторных систем и прогнозировать функции с намного большим разрешением.

Однако, если посмотреть на ситуацию с другой стороны, станет очевидно, что наши возможности по части осмысления получаемых данных отстают – мы просто не успеваем адекватно обрабатывать поступающие данные, чтобы делать из них корректные выводы.
Думаю, было бы здорово, если бы всех специалистов в области биоинформатики собрали года на три где-нибудь на тихом тропическом острове, чтобы они могли спокойно обменяться опытом – и все это время не забрасывали их новыми данными. Нам просто нужно больше времени, чтобы подумать.

Автор статьи: Михаил Гельфанд, доктор биологических наук, профессор, заместитель директора Института проблем передачи информации РАН, член Европейской Академии, лауреат премии им. А.А. Баева, член Общественного совета Минобрнауки, один из основателей «Диссернета»

По материалам сайта ПостНаука

Профессия - биоинформатик

Что это такое?

Информатика – отрасль науки, изучающая структуру и общие свойства информации, а также вопросы, связанные с ее сбором, хранением, поиском, переработкой, преобразованием, распространением и использованием в различных сферах деятельности. Биоинформатикой же называют информатику в применении к молекулярной биологии.

Все знают, что прочитан геном человека. Что такое геном с точки зрения информатики? Это длинный текст, содержащий около 3 млрд букв (нуклеотидов A, T, G, C). И все. Одной из проблем биоинформатики является установление смысла этого текста.

Разумеется, кроме самой последовательности ДНК есть много дополнительной экспериментальной информации.

Далеко не все гены человека известны, о функциях многих генов нет данных. Задача биоинформатики заключается в том, чтобы найти ранее неизвестные гены и описать их предположительную функцию. Как ищутся гены? Это трудная задача. Здесь на помощь приходит математика. В гигантском массиве информации с помощью современных математических методов ищутся скрытые закономерности, которые и позволяют находить гены и предсказывать их свойства.

Говоря о геноме, обычно проводят аналогию с расшифровкой древних рукописей, когда текст известен, а язык - нет. Эта задача неразрешима до тех пор, пока у нас нет никаких представлений о содержании текста. Однако, если мы хотя бы примерно представляем, о чем этот текст, то появляется надежда на его осмысление. В биоинформатике ситуация лучше, чем при расшифровке древних письмен, поскольку ее предсказания могут быть проверены экспериментально.

Гены кодируют белки, поэтому предсказание функции гена - это то же самое, что предсказание функции белка. Для многих белков функции известны из эксперимента. Используя эти данные, метод аналогий и другие методы современной математики, иногда удается предсказать функции других белков.

Сейчас в современных лабораториях часто используют технику массовых экспериментов, когда в одном опыте получают информацию о тысячах генов. Разобраться в этом море информации можно только с помощью компьютера. Проект «Геном человека» - типичный пример такого подхода. Другой пример. Если определить активность всех генов в здоровой и раковой клетке, то после анализа данных можно узнать, какие гены отвечают за перерождение здоровой клетки в раковую. Все было бы просто, если бы такие экспериментальные данные не содержали в себе очень много шума, т.е. ошибок.

Гены - это последовательности ДНК, белки - это аминокислотные последовательности. Функциональность белков определяется их пространственной формой. При этом белки, имеющие разные аминокислотные последовательности, могут иметь очень похожую пространственную структуру. Одной из классических (и до сих пор не решенных) задач биоинформатики является предсказание пространственной структуры белка по последовательности аминокислот. Уже более 5 лет существуют международные соревнования методов предсказания пространственной структуры белка по его последовательности.

Почему это интересно?

Анализ геномов приносит множество новой информации. В настоящее время расшифровано более 200 геномов различных бактерий, каждый из которых содержит несколько тысяч генов. Для того чтобы охарактеризовать один ген, требуется несколько месяцев напряженной работы экспериментаторов. С другой стороны, для того чтобы достаточно подробно описать один бактериальный геном средствами биоинформатики, достаточно примерно месяца работы небольшой группы исследователей.

В геноме человека около 35 тыс. генов (всего в 10 раз больше, чем у бактерии, и в 2 раза больше, чем у плодовой мушки), а количество синтезируемых белков гораздо больше. В чем же дело? Оказывается, что очень часто один ген кодирует несколько разных форм белка. За это отвечает явление, названное альтернативным сплайсингом . Биоинформатика впервые показала, что количество генов, имеющих альтернативный сплайсинг, очень велико. Осталось загадкой, как все это регулируется.

В клетке не все гены должны работать одновременно. Для того чтобы гены работали, как слаженный оркестр, необходимо, чтобы гены включались только тогда, когда их работа необходима. Этим заведует система регуляции генов, анализ которой позволил обнаружить принципиально новые способы регуляции – рибопереключатели .

Еще одно направление - исследование эволюции всего живого. Здесь тоже есть много открытий, например горизонтальный перенос генов между видами. Биоинформатика в некоторых случаях позволяет не только показать эти случаи, но также и датировать их.

Зачем это нужно?

Биология и биоинформатика являются не только способами познания мира, но имеют и прикладное значение, прежде всего в медицине и биотехнологии.

Биоинформатика играет существенную роль в поиске новых лекарственных препаратов и мишеней для них, а также в отбраковке неперспективных лекарств. Приведу пример.

Все вы слышали про мыло Safeguard, которое убивает микробы. Оказалось, что есть весьма опасные стрептококки, не чувствительные к его действующему началу - триклозану. Сначала это было показано с помощью компьютерного анализа геномов стрептококков, а потом подтверждено экспериментально.

Еще пример - анализ генетических данных людей здоровых и с каким-либо заболеванием, например ишемической болезнью сердца. Нет одного гена, ответственного за эту болезнь. Однако сопоставление данных по большому количеству больных позволило найти так называемые ассоциации - набор генов предрасположенности к указанной болезни, и тем самым дает возможность определить генетическую группу риска.

Биоинформатика широко используется в биотехнологии, задачу которой в общем виде можно сформулировать как получение как можно большего количества целевого продукта из 1 г, например, сахара. Для этого надо детально изучить пути биосинтеза, исследовать систему регуляции, найти в других организмах более эффективные ферменты. Здесь тоже всю подготовительную работу может взять на себя биоинформатика.

Важность этого направления науки можно показать и косвенно. Достаточно сказать, что в мире есть несколько крупных научных биоинформатических центров, есть коммерческие компании, предоставляющие биоинформатические услуги. Любая крупная или средняя фармацевтическая или биотехнологическая компания имеет отдел биоинформатики. Сейчас многие университеты готовят специалистов в этой области. В нашей стране возрождается фармацевтическая и биотехнологическая промышленность, которой в скором времени потребуются специалисты. Академическая наука также нуждается в грамотных биоинформатиках.

Что надо знать и уметь?

Грамотный биоинформатик должен иметь разностороннее образование. Он должен хорошо знать биологию. Кроме того, он должен владеть многими методами математики: статистикой, теорией вероятностей, вычислительной математикой, теорией алгоритмов. Надо знать физику и химию - чтобы не делать глупостей. Необходимо знать английский язык - чтобы читать научную литературу. Надо постоянно интересоваться новыми результатами как в биоинформатике, так и в биологии в целом.

В общем, надо быть культурным человеком и постоянно стремиться узнавать что-нибудь новое.

КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «school-mon.ru» — Школьный понедельник - Образовательный портал