Чем занимается биологическая информатика
Биоинформатик
Биоинформатик – человек, занимающийся анализом медико-биологических данных. Он разрабатывает, а также применяет алгоритмические, вычислительные и иные методы, позволяющие узнать больше об информации, заключенной в наших клетках, иных биологических данных. Кстати, в 2021 году центр профориентации ПрофГид разработал точный тест на профориентацию. Он сам расскажет вам, какие профессии вам подходят, даст заключение о вашем типе личности и интеллекте.
Краткое описание
Современные методы диагностики и исследований приводят к росту количества научных данных, которые вручную обрабатывать очень сложно. В этом случае на помощь приходит биоинформатика, которая как междисциплинарная область науки сформировалась во второй половине XX века. Биоинформатики пользуются элементами прикладной математики, статистики, а также информатики. Во время работы они оперируют следующими знаниями:
Рассмотрим основные области исследования:
Профессия молодая, в дальнейшем она будет развиваться еще более стремительно, ведь применение вычислительных методов гарантирует высокую точность, скорость и исключает человеческий фактор. Технологии биоинформатики необходимы в биохимии, биофизике, экологии, фармакологии, сельском хозяйстве, генетике и других сферах.
Особенности профессии
Биоинформатика находится на стыке медицины, биологии, прикладной математики, информатики. В обязанности людей, выбравших это направления, входит решение глобальных задач:
Области исследования обширные, а биоинформатика обладает огромным потенциалом. Международный рынок труда уже испытывает дефицит биоинформатиков, ведь в них заинтересованы и фармакологические, и IT-компании.
Безусловно, биоинформатик должен обладать безупречными знаниями в сфере медицины и биологии, разбираться в сложных профессиональных терминах, огромным плюсом станет знание английского языка. Большую часть рабочего времени эксперты в этой области проводят за компьютером, работа малоподвижная, но имеет огромное социальное значение.
Плюсы и минусы профессии
Плюсы
Минусы
Важные личные качества
Биоинформатики должны отличаться склонностью к точным наукам. Чаще всего они обладают высокой усидчивостью, любят решать математические загадки, способны работать с большими объемами информации. Они являются собранными людьми с хорошо развитым системным и критическим мышлением. Также в их характере преобладают сдержанность, немногословность, умение хранить медицинскую тайну.
Профессия: биоинформатик
Научные исследования, решение прикладных задач и перспективы в будущем
Преподаватель курса биоинформатики в «Фоксфорде» Сергей Исаев рассказывает о своей профессии, карьерных перспективах и заработках молодого специалиста с дипломом биоинформатика.
От программирования к биологии
Я родился и учился в школе в Астрахани. До 9-го класса увлекался математикой и информатикой: участвовал в местных олимпиадах, самостоятельно изучил Python и пытался писать простенькие программы. Я очень не любил биологию в средних классах, однако в 9-м классе началось изучение молекулярной биологии, генетики и эволюции — и я понял, что это моё.
Я стал посвящать гораздо больше времени биологии и в какой-то момент начал заниматься в основном ей. Важной вехой стало участие в Школе молекулярной и теоретической биологии (ШМТБ). Здесь старшие школьники со всей России занимаются настоящими научными проектами под руководством действующих учёных. В школе я выбрал «сухую» (биоинформатическую) лабораторию Максима Имакаева, в которой занимались компьютерным моделированием диффузии хроматина. Тогда-то понял, что вместо того, чтобы выбирать что-то одно, я могу заняться сразу и биологией, и программированием.
Поступление в МГУ
В ШМТБ я прислушался к мнению преподавателей, прочитал отзывы в интернете и принял окончательное решение поступать на факультет биоинженерии и биоинформатики МГУ. Для поступления нужно было сдавать ЕГЭ по русскому языку, математике, химии, биологии и ДВИ по математике.
Поступить было относительно непросто. Я самостоятельно занимался почти всё свободное от школы время, участвовал во Всероссийской олимпиаде школьников по биологии: диплом победителя или призёра гарантировал бы мне поступление. Но мне не хватило всего 0,2 балла до того, чтобы стать призёром на заключительном этапе. Пришлось поступать по результатам ЕГЭ.
Мне очень помогло наличие действительных дипломов нескольких олимпиад по химии, биологии и математике. Они принесли мне 100 баллов ЕГЭ по биологии и химии и 100 баллов ДВИ по математике. Всего получилось около 490 баллов — и я прошёл на бюджет. А вот в 2020 году ситуация с поступлением на факультет была сложнее — все бюджетные места были заняты призёрами и победителями ВсОШ, поэтому по ЕГЭ поступить было в принципе невозможно.
Чем занимается биоинформатик
Важно: под словом «биоинформатика» можно понимать разные вещи.
Во-первых, биоинформатика — это один из методов проведения фундаментальных биологических исследований. Например, с помощью алгоритмов можно определить, каким образом общаются злокачественные клетки рака с соседними клетками, или понять эволюцию группы организмов. Выбор методов и подходов зависит от поставленной цели. Задача биоинформатика — получить данные, изучить их и понять, какую информацию и с помощью каких алгоритмов можно из этих данных извлечь. Чтобы работать в этом направлении, нужно очень хорошо разбираться в какой-то конкретной области биологии.
Во-вторых, биоинформатика — это одно из направлений компьютерных наук. Есть биоинформатики, которые создают алгоритмы и разрабатывают пакеты программ для анализа данных. Здесь важно хорошо понимать фундаментальную математику и алгоритмы.
И в-третьих, биоинформатика — это метод решения прикладных задач в биотехнологической и медицинской индустрии. Например, с помощью анализа данных пациентам можно точнее назначать лекарство при разных заболеваниях. Для этого в медицинских и биотехнологических компаниях в штат нанимают биоинформатиков. Здесь для успешной карьеры не обязательно глубоко разбираться в каком-то конкретном домене биологии, достаточно быть компетентным в своей области — базовой молекулярной биологии и data science.
Чем я занимаюсь сейчас
Сейчас я учусь на 6-м курсе факультета биоинженерии и биоинформатики МГУ. Параллельно с учёбой с 3-го курса работаю в Институте проблем передачи информации РАН в лаборатории Юрия Валентиновича Панчина.
Я безумно благодарен судьбе, что попал к нему в лабораторию: это один из самых важных людей в моей академической карьере. Сложно переоценить, какую поддержку он мне оказывал в течение всей совместной работы. Сначала я был стажёром-исследователем, а потом стал исполняющим обязанности младшего научного сотрудника. В этой лаборатории я занимался в основном сравнительной геномикой различных беспозвоночных животных.
Также с 5-го курса я работаю в компании BostonGene, которая занимается исследованиями в области рака и разрабатывает систему для индивидуальной терапии пациентов на основе генетических анализов. Я занимаюсь исследованиями в отделе молекулярной онкологии.
Ещё одна сторона моей деятельности — преподавание. Курс по биоинформатике я начал вести в 2018 году — сначала в школе № 57, потом в школе «Летово». За это время удалось сделать неплохую программу, и вот с 2020 года веду курс биоинформатики и в «Фоксфорде». Мне очень нравится преподавать.
Это возможность общаться с людьми, рассказывать ребятам что-то новое, о чём они не прочитают в интернете, а также самому развиваться в профессии. Любая информация лучше укладывается в голове, когда её объясняешь другим.
Качества и навыки, которые нужны биоинформатику
Любознательность
В этой профессии очень важно обладать тягой к познанию, изучению нового, быть открытым новым методам. Биоинформатика очень быстро развивается, методы устаревают буквально на глазах за несколько лет — нужно быть в тренде, стремиться попробовать что-то новое.
Целеустремлённость
Чтобы сделать успешную карьеру, требуется приложить большие усилия, и тут очень важно не бросить на полпути, уметь поставить и достичь цель, проявлять усердие и терпение.
Математика
В биоинформатику не стоит идти, если пугает математика и математические методы. Математика необходима, чтобы разбираться в статистике, анализе данных, методах машинного обучения.
Аналитическое мышление
Биоинформатик постоянно имеет дело с анализом информации. Он должен уметь обобщать, отделять главное от второстепенного, группировать данные по категориям, устанавливать причины и следствия.
Английский язык
Это язык современной науки, на нём проходят конференции, публикуются статьи, книги, исследования. В программировании и IT тоже не обойтись без английского языка, так что биоинформатику свободный английский особенно важен.
Карьера и зарплата
Карьерная лестница, зарплата и перспективы зависят в том числе от того, какую из двух сторон профессии выбрать: научные исследования или решение прикладных задач.
В науке можно пройти путь от аспиранта до доктора наук и директора собственной лаборатории, сделать открытие и даже получить Нобелевскую премию. Однако на первых порах зарплата вряд ли будет высокой. Сейчас наука во многом существует за счёт грантов. Если вы даже аспирантом попадёте в хорошую лабораторию, которая занимается актуальными исследованиями, то сможете зарабатывать и 70 тысяч рублей в месяц. А можете попасть в неудачную лабораторию и зарабатывать намного меньше.
В индустрии вы начнёте с места джуниора в отделе компании, где перед вами будут ставить конкретные задачи, но по мере освоения профессии, нарабатывая опыт, можете стать, например, директором отдела компьютерных исследований. Биотехнологических компаний на рынке сейчас намного больше, чем 10 лет назад. Это молодая развивающаяся сфера, которая связана со здоровьем человека, так что новые рабочие места будут появляться. Зарплата начинающего биоинформатика в Москве колеблется от 60 до 80 тысяч рублей, ну а дальше можно зарабатывать и больше — карьерный рост тут устроен примерно так же, как и в других IT-компаниях.
Смежные сферы, куда можно пойти работать с образованием биоинформатика
Биоинженерия. Специальность на факультете называется «биоинженерия и биоинформатика», там дают знания в области молекулярной биологии, генетики, и теоретически можно пойти работать в эти сферы.
IT. Вы получите обширные знания в области компьютерных наук и анализа данных и сможете полностью уйти в эту сферу без привязки к биологии.
Медицинская статистика. Статистика — составная часть анализа данных, и если умеете одно — сможете и другое.
Где учиться на биоинформатика
Университеты с направлением «Биоинженерия и биоинформатика»:
Также биоинформатике обучают на таких направлениях, как «Биотехнические системы и технологии» (Уральский федеральный университет им. Б.Н. Ельцина), «Биомедицинские технические системы» (МГТУ им. Н.Э. Баумана), «Биотехнические и медицинские аппараты и системы» (МАИ, Национальный исследовательский университет «МЭИ», СПбГЭТУ «ЛЭТИ», Санкт-Петербургский государственный университет аэрокосмического приборостроения).
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter
Данные внутри нас: Чем занимаются биоинформатики?
Рассказываем про людей будущего, которые расшифровывают органическую биг-дату. За последние два десятилетия количество биологических данных, которые можно проанализировать, выросло во много раз благодаря тому, что был расшифрован геном человека. До этого мы и представить не могли, что по информации, хранящейся буквально у нас в крови, можно будет определить наше происхождение, проверить, как организм будет реагировать на определенные лекарства, и даже изменить свою биологическую наследственность.
Эта и другие статьи раньше всего выходят в блоге на нашем сайте. Приятного чтения.
Атрибуты среднестатистического биоинформатика такие же, как у программиста — красные глаза, сутулая осанка и следы от кофейных чашек на рабочем столе. Однако за этим столом идет работа не над абстрактными алгоритмами и командами, а над кодом самой природы, который может многое рассказать нам о нас и мире вокруг.
Специалисты в этой области имеют дело с огромными объемами данных (к примеру, результаты секвенирования генома одного человека занимают около 100 гигабайт). Поэтому обработка такого массива информации требует подходов и инструментов Data Science. Логично, что успешный биоинформатик должен разбираться не только в биологии и химии, но и в методах анализа данных, статистике и математике — это делает его профессию достаточно редкой и востребованной. Такие специалисты особо нужны в областях инновационной медицины и разработке лекарств. Технологический гиганты вроде IBM и Intel открывают свои программы, посвященные изучению биоинформатики.
Что нужно, чтобы стать биоинформатиком?
Чем занимаются биоинформатики?
Современная биоинформатика делится на два основных ответвления — структурная биоинформатика и биоинформатика последовательностей. В первом случае мы видим человека, который сидит перед компьютером и запускает программы, помогающие изучать биологические объекты (например, ДНК или белки) в 3D-визуализациях. Они строят компьютерные модели, позволяющие предсказать, как молекула лекарства будет взаимодействовать с белком, как выглядит пространственная структура белка в клетке, какими свойствами молекулы объясняются ее взаимодействия с клеточными структурами и т. д.
Методы структурной биоинформатики активно используются как в академической науке, так и в индустрии: сложно представить фармкомпанию, которая обходится без таких специалистов. За последние годы компьютерные методы позволили в разы упростить процесс поиска потенциальных лекарств, что сделало фармацевтическую разработку гораздо более быстрым и дешевым процессом.
РНК-зависимая РНК-полимераза SARS-CoV-2 (слева), а также её связь с дуплексом РНК. Источник.
Что такое геном?
Геном это вся информация о строении наследственности организма. Практически у всех живых существ носителем генома является ДНК, но есть организмы, передающие свою наследственную информацию в виде РНК. Геном передается от родителей к детям, и в ходе этого процесса передачи могут возникать ошибки — мутации.
Взаимодействие лекарства ремдесивира с РНК-зависимой РНК-полимеразой вируса SARS-CoV-2. Источник.
Биоинформатика последовательностей работает с более высоким уровнем организации живой материи — начиная с отдельных нуклеотидов, ДНК и генов, и заканчивая целыми геномами и их сравнениями друг с другом.
Представьте себе человека, который видит перед собой набор букв алфавита (но не простого, а генетического или аминокислотного) и ищет в них закономерности, объясняя и подтверждая их статистически, с использованием компьютерных методов. Биоинформатика последовательностей объясняет, с какой мутацией связано то или иное заболевание или почему в крови пациента накапливаются вредоносные вещества. Помимо медицинских данных, биоинформатики последовательностей изучают закономерности распространения организмов по земле, популяционные различия между группами животных, роли и функции конкретных генов. Благодаря этой науке можно проверять эффективность лекарств и изучать биологические механизмы, которые объясняют их действие.
Например, благодаря биоинформатическому анализу были найдены и описаны мутации, приводящие к развитию муковисцидоза — моногенного заболевания, вызванного поломкой гена одного из хлорных каналов. А еще теперь мы гораздо лучше знаем, кто приходится ближайшим биологическим родственником человеку и как наши предки расселялись по планете. Более того, каждый человек, прочитав свой геном, может узнать, откуда происходит его род и к какой этнической группе он принадлежит. Множество зарубежных (23andme, MyHeritage) и российских (Genotek, Atlas) сервисов позволяют получить эту услугу за сравнительно небольшую цену (порядка 20 тыс. рублей).
Результаты анализа ДНК-теста на происхождение и популяционную принадлежность от компании MyHeritage.
Результаты анализа ДНК-теста на популяционную принадлежность от компании 23andMe.
Как читают геном?
Сегодня секвенирование генома — рутинная процедура, которая обойдется любому желающему примерно в 150 тыс. рублей (в том числе, в России). Чтобы прочитать свой геном, достаточно просто сдать в специальной лаборатории кровь из вены: через две недели вы получите готовый результат с детальным описанием ваших генетических особенностей. Помимо своего генома можно проанализировать геномы микробиоты кишечника: вы узнаете особенности бактерий, населяющих вашу пищеварительную систему, а также получите консультацию от профессионального диетолога.
Геном можно прочитать разными методами, одним из основных сейчас является так называемое «секвенирование нового поколения». Для проведения этой процедуры нужно сначала получить биологические образцы. В каждой клетке организма геном одинаковый, поэтому чаще всего для чтения генома берут кровь (это проще всего). После этого клетки разрушают и отделяют ДНК от всего остального. Затем, полученную ДНК дробят на множество маленьких кусочков и «пришивают» к каждому из них специальные адаптеры — искусственно синтезированные известные последовательности нуклеотидов. Потом цепочки ДНК разделяют, и однонитевые цепочки с помощью адаптеров присоединяют к специальной плашке, на которой проводится секвенирование. В ходе секвенирования к последовательности ДНК присоединяются комплементарные флуоресцентно меченые нуклеотиды. Каждый меченый нуклеотид при присоединении испускает пучок света определенной длины волны, что фиксируется на компьютере. Так компьютер прочитывает короткие последовательности исходной ДНК, которые потом с помощью специальных алгоритмов собираются в исходный геном.
Пример данных, с которыми работают биоинформатики последовательностей: выравнивание аминокислотных последовательностей.
Где работают и сколько получают биоинформатики?
Путь биоинформатика традиционно делится на две основные области — индустрия и наука. Карьера ученого-биоинформатика обычно начинается с аспирантской должности в одном из крупных институтов. Изначально биоинформатики получают базовую ставку, зависящую от их института, количества грантов, в которых они принимают участие, а также их количества аффиляций — мест, в которых они официально трудоустроены. Со временем количество грантов и аффиляций растет, и где-то через пару лет работы в академической среде биоинформатик без проблем получает среднюю зарплату (70-80 тыс. рублей), однако многое зависит от усердия и трудолюбия. Наиболее опытные биоинформатики в конечном итоге заводят собственные лаборатории в сферах своей специализации.
Где учатся на биоинформатика?
Известные биоинформатики
Историю биоинформатики следует вести от Фредерика Сэнгера, английского ученого, получившего в 1980 году Нобелевскую премию по химии за открытие способа прочтения последовательности ДНК. С тех пор, с каждым годом методы чтения последовательностей совершенствуются, однако метод «секвенирования по Сэнгеру» послужил основой для всех дальнейших исследований в этой области.
Кстати, многие программы, созданные именно российскими учеными, сегодня широко используются во всем мире — например, геномный сборщик SPAdes, — St. Petersburg genome assembler, созданный в Санкт-Петербургском институте, помогает ученым со всего мира собирать короткие последовательности ДНК в большие последовательности, чтобы восстановить исходные геномы организмов.
Открытия и достижения биоинформатики
В наше время биоинформатики совершают множество полезных открытий. Невозможно было бы представить разработку лекарств от коронавируса без расшифровки его генома и сложного биоинформатического анализа процессов, происходящих в ходе заболевания. Международная группа ученых с помощью методов сравнительной геномики и машинного обучения смогла понять, что общего у коронавирусов с другими патогенами.
Оказалось, что одна из таких особенностей — происходящее в ходе эволюции усиление сигналов ядерной локализации (NLS) патогенных вирусов. Это исследование может помочь в изучении штаммов вирусов, которые могут быть потенциально опасными для человека в будущем, и, возможно, начать превентивную разработку лекарственных препаратов.
Помимо этого, биоинформатики сыграли ключевую роль в разработке новых методов редактирования генома, в частности, CRISPR/Cas9 системы (технология, базирующаяся на иммунной системе бактерий). Благодаря биоинформатическому анализу структуры данных белков и их эволюционного развития, точность и эффективность этой системы за последние годы выросла в разы, что позволило целенаправленно редактировать геномы многих организмов (в том числе человека).
Получить востребованную профессию с нуля или Level Up по навыкам и зарплате, можно, пройдя онлайн-курсы SkillFactory:
Просто о сложном: что нужно знать о биоинформатике
Если спросить случайного прохожего, что такое биология, он наверняка ответит что-то вроде «наука о живой природе». Про информатику скажет, что она имеет дело с компьютерами и информацией. Если мы не побоимся быть навязчивыми и зададим ему третий вопрос – что такое биоинформатика? – тут-то он наверняка и растеряется. Логично: про эту область знаний даже в ЕРАМ знает далеко не каждый – хотя в нашей компании и биоинформатики есть. Давайте разбираться, для чего эта наука нужна человечеству вообще и ЕРАМ в частности: в конце концов, вдруг нас на улице об этом спросят.
Почему биология перестала справляться без информатики и при чем тут рак
Чтобы провести исследование, биологам уже недостаточно взять анализы и посмотреть в микроскоп. Современная биология имеет дело с колоссальными объемами данных. Часто обработать их вручную просто невозможно, поэтому многие биологические задачи решаются вычислительными методами. Не будем далеко ходить: молекула ДНК настолько мала, что разглядеть ее под световым микроскопом нельзя. А если и можно (под электронным), всё равно визуальное изучение не помогает решить многих задач.
ДНК человека состоит из трех миллиардов нуклеотидов – чтобы вручную проанализировать их все и найти нужный участок, не хватит и целой жизни. Ну, может и хватит – одной жизни на анализ одной молекулы – но это слишком долго, дорого и малопродуктивно, так что геном анализируют при помощи компьютеров и вычислений.
Биоинформатика — это и есть весь набор компьютерных методов для анализа биологических данных: прочитанных структур ДНК и белков, микрофотографий, сигналов, баз данных с результатами экспериментов и т. д.
Иногда секвенировать ДНК нужно, чтобы подобрать правильное лечение. Одно и то же заболевание, вызванное разными наследственными нарушениями или воздействием среды, нужно лечить по-разному. А еще в геноме есть участки, которые не связаны с развитием болезни, но, например, отвечают за реакцию на определенные виды терапии и лекарств. Поэтому разные люди с одним и тем же заболеванием могут по-разному реагировать на одинаковое лечение.
Еще биоинформатика нужна, чтобы разрабатывать новые лекарства. Их молекулы должны иметь определенную структуру и связываться с определенным белком или участком ДНК. Смоделировать структуру такой молекулы помогают вычислительные методы.
Достижения биоинформатики широко применяют в медицине, в первую очередь в терапии рака. В ДНК зашифрована информация о предрасположенности и к другим заболеваниям, но над лечением рака работают больше всего. Это направление считается самым перспективным, финансово привлекательным, важным – и самым сложным.
Биоинформатика в ЕРАМ
В ЕРАМ биоинформатикой занимается подразделение Life Sciences. Там разрабатывают программное обеспечение для фармкомпаний, биологических и биотехнологических лабораторий всех масштабов — от стартапов до ведущих мировых компаний. Справиться с такой задачей могут только люди, которые разбираются в биологии, умеют составлять алгоритмы и программировать.
Биоинформатики – гибридные специалисты. Сложно сказать, какое знание для них первично: биология или информатика. Если так ставить вопрос, им нужно знать и то и другое. В первую очередь важны, пожалуй, аналитический склад ума и готовность много учиться. В ЕРАМ есть и биологи, которые доучились информатике, и программисты с математиками, которые дополнительно изучали биологию.
Как становятся биоинформатиками
Мария Зуева, разработчик:
«Я получила стандартное ИТ-образование, потом училась на курсах ЕРАМ Java Lab, где увлеклась машинным обучением и Data Science. Когда я выпускалась из лаборатории, мне сказали: «Сходи в Life Sciences, там занимаются биоинформатикой и как раз набирают людей». Не лукавлю: тогда я услышала слово «биоинформатика» в первый раз. Прочитала про нее на Википедии и пошла.
Тогда в подразделение набрали целую группу новичков, и мы вместе изучали биоинформатику. Начали с повторения школьной программы про ДНК и РНК, затем подробно разбирали существующие в биоинформатике задачи, подходы к их решению и алгоритмы, учились работать со специализированным софтом».
Геннадий Захаров, бизнес-аналитик:
«По образованию я биофизик, в 2012-м защитил кандидатскую по генетике. Какое-то время работал в науке, занимался исследованиями – и продолжаю до сих пор. Когда появилась возможность применить научные знания в производстве, я тут же за нее ухватился.
Для бизнес-аналитика у меня весьма специфическая работа. Например, финансовые вопросы проходят мимо меня, я скорее эксперт по предметной области. Я должен понять, чего от нас хотят заказчики, разобраться в проблеме и составить высокоуровневую документацию – задание для программистов, иногда сделать работающий прототип программы. По ходу проекта я поддерживаю контакт с разработчиками и заказчиками, чтобы те и другие были уверены: команда делает то, что от нее требуется. Фактически я переводчик с языка заказчиков – биологов и биоинформатиков – на язык разработчиков и обратно».
Как читают геном
Чтобы понять суть биоинформатических проектов ЕРАМ, сначала нужно разобраться, как секвенируют геном. Дело в том, что проекты, о которых мы будем говорить, напрямую связаны с чтением генома. Обратимся за объяснением к биоинформатикам.
Михаил Альперович, глава юнита биоинформатики:
«Представьте, что у вас есть десять тысяч экземпляров «Войны и мира». Вы пропустили их через шредер, хорошенько перемешали, наугад вытащили из этой кучи ворох бумажных полосок и пытаетесь собрать из них исходный текст. Вдобавок у вас есть рукопись «Войны и мира». Текст, который вы соберете, нужно будет сравнить с ней, чтобы отловить опечатки (а они обязательно будут). Примерно так же читают ДНК современные машины-секвенаторы. ДНК выделяют из клеточных ядер и делят на фрагменты по 300–500 пар нуклеотидов (мы помним, что в ДНК нуклеотиды связаны друг с другом попарно). Молекулы дробят, потому что ни одна современная машина не может прочитать геном от начала до конца. Последовательность слишком длинная, и по мере ее прочтения накапливаются ошибки.
Вспоминаем «Войну и мир» после шредера. Чтобы восстановить исходный текст романа, нам нужно прочитать и расположить в правильном порядке все кусочки романа. Получается, что мы читаем книгу несколько раз по крошечным фрагментам. То же с ДНК: каждый участок последовательности секвенатор прочитывает с многократным перекрытием – ведь мы анализируем не одну, а множество молекул ДНК.
Полученные фрагменты выравнивают – «прикладывают» каждый из них к эталонному геному и пытаются понять, какому участку эталона соответствует прочитанный фрагмент. Затем в выравненных фрагментах находят вариации – значащие отличия прочтений от эталонного генома (опечатки в книге по сравнению с эталонной рукописью). Этим занимаются программы – вариант-коллеры (от англ. variant caller – выявитель мутаций). Это самая сложная часть анализа, поэтому различных программ – вариант-коллеров много и их постоянно совершенствуют и разрабатывают новые.
Подавляющее большинство найденных мутаций нейтральны и ни на что не влияют. Но есть и такие, в которых зашифрованы предрасположенность к наследственным заболеваниям или способность откликаться на разные виды терапии».
Для анализа берут образец, в котором находится много клеток — а значит, и копий полного набора ДНК клетки. Каждый маленький фрагмент ДНК прочитывают несколько раз, чтобы минимизировать вероятность ошибки. Если пропустить хотя бы одну значащую мутацию, можно поставить пациенту неверный диагноз или назначить неподходящее лечение. Прочитать каждый фрагмент ДНК по одному разу слишком мало: единственное прочтение может быть неправильным, и мы об этом не узнаем. Если мы прочитаем тот же фрагмент дважды и получим один верный и один неверный результат, нам будет сложно понять, какое из прочтений правдивое. А если у нас сто прочтений и в 95 из них мы видим один и тот же результат, мы понимаем, что он и есть верный.
«Для анализа раковых заболеваний секвенировать нужно и здоровую, и больную клетку. Рак появляется в результате мутаций, которые клетка накапливает в течение своей жизни. Если в клетке испортились механизмы, отвечающие за ее рост и деление, то клетка начинает неограниченно делиться вне зависимости от потребностей организма, т. е. становится раковой опухолью. Чтобы понять, чем именно вызван рак, у пациента берут образец здоровой ткани и раковой опухоли. Оба образца секвенируют, сопоставляют результаты и находят, чем один отличается от другого: какой молекулярный механизм сломался в раковой клетке. Исходя из этого подбирают лекарство, которое эффективно против клеток с “поломкой”».
Биоинформатика: производство и опенсорс
У подразделения биоинформатики в ЕРАМ есть и производственные, и опенсорс-проекты. Причем часть производственного проекта может перерасти в опенсорс, а опенсорсный проект – стать частью производства (например, когда продукт ЕРАМ с открытым кодом нужно интегрировать в инфраструктуру клиента).
Проект №1: вариант-коллер
Для одного из клиентов – крупной фармацевтической компании – ЕРАМ модернизировал программу вариант-коллер. Ее особенность в том, что она способна находить мутации, недоступные другим аналогичным программам. Изначально программа была написана на языке Perl и обладала сложной логикой. В ЕРАМ программу переписали на Java и оптимизировали – теперь она работает в 20, если не в 30 раз быстрее.
Исходный код программы доступен на GitHub.
Проект №2: 3D-просмотрщик молекул
Для визуализации структуры молекул в 3D есть много десктоп- и веб-приложений. Представлять, как молекула выглядит в пространстве, крайне важно, например, для разработки лекарств. Предположим, нам нужно синтезировать лекарство, обладающее направленным действием. Сначала нам потребуется спроектировать молекулу этого лекарства и убедиться, что она будет взаимодействовать с нужными белками именно так, как нужно. В жизни молекулы трехмерные, поэтому анализируют их тоже в виде трехмерных структур.
Для 3D-просмотра молекул ЕРАМ сделал онлайн-инструмент, который изначально работал только в окне браузера. Потом на основании этого инструмента разработали версию, которая позволяет визуализировать молекулы в очках виртуальной реальности HTC Vive. К очкам прилагаются контроллеры, которыми молекулу можно поворачивать, перемещать, подставлять к другой молекуле, поворачивать отдельные части молекулы. Делать всё это в 3D куда удобнее, чем на плоском мониторе. Эту часть проекта биоинформатики ЕРАМ делали совместно с подразделением Virtual Reality, Augmented Reality and Game Experience Delivery.
Программа только готовится к публикации на GitHub, зато пока есть ссылка, по которой можно посмотреть ее демо-версию.
Как выглядит работа с приложением, можно узнать из видео.
Проект №3: геномный браузер NGB
Геномный браузер визуализирует отдельные прочтения ДНК, вариации и другую информацию, сгенерированную утилитами для анализа генома. Когда прочтения сопоставлены с эталонным геномом и мутации найдены, ученому остается проконтролировать, правильно ли сработали машины и алгоритмы. От того, насколько точно выявлены мутации в геноме, зависит, какой диагноз поставят пациенту или какое лечение ему назначат. Поэтому в клинической диагностике контролировать работу машин должен ученый, а помогает ему в этом геномный браузер.
Биоинформатикам-разработчикам геномный браузер помогает анализировать сложные случаи, чтобы найти ошибки в работе алгоритмов и понять, как их можно улучшить.
Новый геномный браузер NGB (New Genome Browser) от ЕРАМ работает в вебе, но по скорости и функционалу не уступает десктопным аналогам. Это продукт, которого не хватало на рынке: предыдущие онлайновые инструменты работали медленнее и умели делать меньше, чем десктопные. Сейчас многие клиенты выбирают веб-приложения из соображений безопасности. Онлайн-инструмент позволяет ничего не устанавливать на рабочий компьютер ученого. С ним можно работать из любой точки мира, зайдя на корпоративный портал. Ученому не обязательно всюду возить за собой рабочий компьютер и скачивать на него все необходимые данные, которых может быть очень много.
Геннадий Захаров, бизнес-аналитик:
«Над опенсорсными утилитами я работал частично как заказчик: ставил задачу. Я изучал лучшие решения на рынке, анализировал их преимущества и недостатки, искал, как можно их усовершенствовать. Нам нужно было сделать веб-решения не хуже десктопных аналогов и при этом добавить в них что-то уникальное.
В 3D-просмотрщике молекул это была работа с виртуальной реальностью, а в геномном браузере – улучшенная работа с вариациями. Мутации бывают сложными. Перестройки в раковых клетках иногда затрагивают огромные области. В них появляются лишние хромосомы, куски хромосом и целые хромосомы исчезают или объединяются в случайном порядке. Отдельные куски генома могут копироваться по 10–20 раз. Такие данные, во-первых, сложнее получить из прочтений, а во-вторых, сложнее визуализировать.
Мы разработали визуализатор, который правильно читает информацию о таких протяженных структурных перестройках. Еще мы сделали набор визуализаций, который при контакте хромосом показывает, образовались ли из-за этого контакта гибридные белки. Если протяженная вариация затрагивает несколько белков, мы по клику можем рассчитать и показать, что происходит в результате такой вариации, какие гибридные белки получаются. В других визуализаторах ученым приходилось отслеживать эту информацию вручную, а в NGB – в один клик».
Как изучать биоинформатику
Мы уже говорили, что биоинформатики – гибридные специалисты, которые должны знать и биологию, и информатику. Самообразование играет в этом не последнюю роль. Конечно, в ЕРАМ есть вводный курс в биоинформатику, но рассчитан он на сотрудников, которым эти знания пригодятся на проекте. Занятия проводятся только в Санкт-Петербурге. И всё же, если биоинформатика вам интересна, возможность учиться есть:
1) Вводный курс в генетическую диагностику от компании 23andme.
2) Несколько курсов на Coursera (в том числе пара курсов на русском: введение в биоинформатику и в метагеномику).
3) Курсы на Stepik от института биоинформатики: молекулярная биология и генетика, молекулярная филогенетика, генная инженерия и введение в технологии высокоэффективного секвенирования. Полный список курсов от института можно посмотреть на его официальном сайте.
4) Лекции Павла Певзнера – профессора Калифорнийского университета в Сан-Диего, специалиста в области биоинформатики.
5) Если вы живете в Санкт-Петербурге, можно прийти на гостевые лекции в институт биоинформатики – это бесплатно.