Формат fastq чем открыть
Русские Блоги
Формат данных NGS Card 01-FastQ Формат и формат Fasta подробно
содержание
Правила именования файлов FastQ
Индекс магазина несоответствует чтения
Формат FastQ
Четыре колонны общих работников следующие:
Первый ряд,Sequence identifier
Идентификация последовательности и связанная с ними описание информации, например,
Формат, указанный официальным веб-сайтом, заключается в следующем:
Второй список,Sequence
Информация о последовательности, например
Третий столбец,Quality score identifier line (consisting only of a +)
Начало «+», он ничего не добавляет, чтобы сохранить место для хранения, прежде чем повторять первую строку информации, например,
Четвертый столбец, Оценка качества, секвенирование качества качества
Проверка целостности FastQ передает
Чтобы предотвратить случайное повреждение FastQ во время передачи, файл MD5, который будет генерировать файлы перед прохождением
Полученная партия MD5 файл md5_check.txt
ОК представляет собой соответствующее castq завершено.
Формат Fasta
В основном состоит из двух линий, последовательности описания информации и последовательности данных. Информация заголовка исключительна, с большей, чем числом (>) в качестве идентификационного знака, например
Первый ряд: Последовательность описания информации
2-й: данные последовательности
CCCTCCTATCATGCTGTCAGTGTATCTCTAAATAGCACTCTCAACCCCCGTGAACTTGGT TATTAAAAACATGCCCAAAGTCTGGGAGCCAGGGCTGCAGGGAAATACCACAGCCTCAGT TCATCAAAACAGTTCATTGCCCAAAATGTTCTCAGCTGCAGCTTTCATGAGGTAACTCCA GGGCCCACCTGTTCTCTGGT
Тип интернет-СМИ | текст / простой, химический / seq-na-fastq | |||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Разработан | Wellcome Trust Sanger Institute | |||||||||||||||||||||
изначальный выпуск |
EAS139 | уникальное название инструмента |
---|---|
136 | идентификатор запуска |
FC706VJ | идентификатор проточной ячейки |
2 | переулок проточной ячейки |
2104 | номер плитки в полосе проточной кюветы |
15343 | ‘x’ координата кластера в тайле |
197393 | ‘y’ координата кластера в тайле |
1 | член пары, 1 или 2 (только чтение парной или парной пары) |
Y | Y, если чтение отфильтровано (не прошло), N в противном случае |
18 | 0, когда ни один из управляющих битов не включен, в противном случае это четное число |
ATCACG | последовательность индексов |
Обратите внимание, что в более поздних версиях программного обеспечения Illumina вместо порядковой последовательности выводится номер образца (взятый из таблицы образцов). Например, в первом образце пакета может появиться следующий заголовок:
Архив чтения последовательности NCBI
Файлы FASTQ из архива чтения последовательностей INSDC часто включают описание, например
В этом примере есть идентификатор, присвоенный NCBI, а описание содержит исходный идентификатор от Solexa / Illumina (как описано выше) плюс длину чтения. Секвенирование выполняли в режиме парных концов (размер вставки
Современное использование FASTQ почти всегда включает в себя разделение пятна на его биологические чтения, как описано в метаданных, предоставленных отправителем:
Если fastq-dump присутствует в архиве, он может попытаться восстановить прочитанные имена в исходный формат. NCBI по умолчанию не сохраняет исходные имена чтения:
Вариации
Качество
Конвейер Solexa (то есть программное обеспечение, поставляемое с анализатором генома Illumina) ранее использовал другое отображение, кодируя шансы p / (1- p ) вместо вероятности p :
Кодирование
Была предложена альтернативная интерпретация этой кодировки ASCII. Кроме того, в прогонах Illumina с использованием элементов управления PhiX символ «B» представлял «неизвестный показатель качества». Частота ошибок при чтении «B» была примерно на 3 балла по шкале phred ниже среднего наблюдаемого балла для данного прогона.
Для необработанных чтений диапазон баллов будет зависеть от технологии и используемого основного вызывающего, но обычно будет до 41 для последних исследований химии Illumina. Поскольку максимальная наблюдаемая оценка качества ранее составляла всего 40, различные скрипты и инструменты ломаются, когда они сталкиваются с данными со значениями качества, превышающими 40. Для обработанных чтений оценки могут быть даже выше. Например, значения качества 45 наблюдаются при чтении из службы секвенирования длительного чтения Illumina (ранее Moleculo).
Цветовое пространство
Моделирование
К моделированию чтения FASTQ подошли несколько инструментов. Сравнение этих инструментов можно увидеть здесь.
Сжатие
Общие компрессоры
Инструменты общего назначения, такие как Gzip и bzip2, рассматривают FASTQ как простой текстовый файл и приводят к неоптимальным коэффициентам сжатия. Архив чтения последовательности NCBI кодирует метаданные с использованием схемы LZ-77. Общие компрессоры FASTQ обычно сжимают отдельные поля (считанные имена, последовательности, комментарии и оценки качества) в файле FASTQ отдельно; к ним относятся Genozip, DSRC и DSRC2, FQC, LFQC, Fqzcomp и Slimfastq.
Читает
Тесты для этих инструментов доступны в.
Ценности качества
Значения качества составляют около половины необходимого дискового пространства в формате FASTQ (до сжатия), поэтому сжатие значений качества может значительно снизить требования к хранению и ускорить анализ и передачу данных секвенирования. В последнее время в литературе рассматриваются как сжатие без потерь, так и сжатие с потерями. Например, алгоритм QualComp выполняет сжатие с потерями со скоростью (количество бит на значение качества), указанной пользователем. Основываясь на результатах теории искажения скорости, он распределяет количество битов так, чтобы минимизировать MSE (среднеквадратичную ошибку) между исходным (несжатым) и восстановленным (после сжатия) значениями качества. Другие алгоритмы сжатия значений качества включают SCALCE и Fastqz. Оба являются алгоритмами сжатия без потерь, которые обеспечивают дополнительный подход к управляемому преобразованию с потерями. Например, SCALCE уменьшает размер алфавита на основании наблюдения, что «соседние» значения качества в целом похожи. Для теста см..
Начиная с HiSeq 2500 Illumina дает возможность выводить крупнозернистые материалы качества в бункеры качества. Сгруппированные баллы вычисляются непосредственно из таблицы эмпирических показателей качества, которая сама привязана к аппаратному обеспечению, программному обеспечению и химическому составу, которые использовались во время эксперимента по секвенированию.
Шифрование
Genozip шифрует файлы FASTQ (а также другие геномные форматы), применяя стандартное шифрование AES на наиболее безопасном уровне 256 бит ( опция —password ).
Cryfa использует шифрование AES и позволяет сжимать данные помимо шифрования. Он также может обращаться к файлам FASTA.
Расширение файла
Расширение файла FQ
FASTQ Format
Что такое файл FQ?
Программы, которые поддерживают FQ расширение файла
Следующий список содержит программы, сгруппированные по 3 операционным системам, которые поддерживают FQ файлы. FQ файлы можно встретить на всех системных платформах, включая мобильные, но нет гарантии, что каждый из них будет должным образом поддерживать такие файлы.
Программы, обслуживающие файл FQ
Как открыть файл FQ?
Отсутствие возможности открывать файлы с расширением FQ может иметь различное происхождение. Что важно, все распространенные проблемы, связанные с файлами с расширением FQ, могут решать сами пользователи. Процесс быстрый и не требует участия ИТ-специалиста. Мы подготовили список, который поможет вам решить ваши проблемы с файлами FQ.
Шаг 1. Скачайте и установите Sublime Text
Проблемы с открытием и работой с файлами FQ, скорее всего, связаны с отсутствием надлежащего программного обеспечения, совместимого с файлами FQ на вашем компьютере. Наиболее очевидным решением является загрузка и установка Sublime Text или одной из перечисленных программ: PSPad, NotePad++ text editor, Atom. Полный список программ, сгруппированных по операционным системам, можно найти выше. Одним из наиболее безопасных способов загрузки программного обеспечения является использование ссылок официальных дистрибьюторов. Посетите сайт Sublime Text и загрузите установщик.
Шаг 2. Убедитесь, что у вас установлена последняя версия Sublime Text
Если проблемы с открытием файлов FQ по-прежнему возникают даже после установки Sublime Text, возможно, у вас устаревшая версия программного обеспечения. Проверьте веб-сайт разработчика, доступна ли более новая версия Sublime Text. Может также случиться, что создатели программного обеспечения, обновляя свои приложения, добавляют совместимость с другими, более новыми форматами файлов. Это может быть одной из причин, по которой FQ файлы не совместимы с Sublime Text. Все форматы файлов, которые прекрасно обрабатывались предыдущими версиями данной программы, также должны быть открыты с помощью Sublime Text.
Шаг 3. Назначьте Sublime Text для FQ файлов
Если проблема не была решена на предыдущем шаге, вам следует связать FQ файлы с последней версией Sublime Text, установленной на вашем устройстве. Метод довольно прост и мало меняется в разных операционных системах.
Процедура изменения программы по умолчанию в Windows
Процедура изменения программы по умолчанию в Mac OS
Шаг 4. Убедитесь, что FQ не неисправен
Если вы выполнили инструкции из предыдущих шагов, но проблема все еще не решена, вам следует проверить файл FQ, о котором идет речь. Проблемы с открытием файла могут возникнуть по разным причинам.
1. Проверьте FQ файл на наличие вирусов или вредоносных программ.
Если случится так, что FQ инфицирован вирусом, это может быть причиной, которая мешает вам получить к нему доступ. Сканируйте файл FQ и ваш компьютер на наличие вредоносных программ или вирусов. FQ файл инфицирован вредоносным ПО? Следуйте инструкциям антивирусного программного обеспечения.
2. Убедитесь, что структура файла FQ не повреждена
Если вы получили проблемный файл FQ от третьего лица, попросите его предоставить вам еще одну копию. В процессе копирования файла могут возникнуть ошибки, делающие файл неполным или поврежденным. Это может быть источником проблем с файлом. Это может произойти, если процесс загрузки файла с расширением FQ был прерван и данные файла повреждены. Загрузите файл снова из того же источника.
3. Убедитесь, что у вас есть соответствующие права доступа
Существует вероятность того, что данный файл может быть доступен только пользователям с достаточными системными привилегиями. Выйдите из своей текущей учетной записи и войдите в учетную запись с достаточными правами доступа. Затем откройте файл FASTQ Format.
4. Убедитесь, что ваше устройство соответствует требованиям для возможности открытия Sublime Text
Операционные системы могут иметь достаточно свободных ресурсов для запуска приложения, поддерживающего файлы FQ. Закройте все работающие программы и попробуйте открыть файл FQ.
5. Проверьте, есть ли у вас последние обновления операционной системы и драйверов
Регулярно обновляемая система, драйверы и программы обеспечивают безопасность вашего компьютера. Это также может предотвратить проблемы с файлами FASTQ Format. Возможно, файлы FQ работают правильно с обновленным программным обеспечением, которое устраняет некоторые системные ошибки.
Вы хотите помочь?
Если у Вас есть дополнительная информация о расширение файла FQ мы будем признательны, если Вы поделитесь ею с пользователями нашего сайта. Воспользуйтесь формуляром, находящимся здесь и отправьте нам свою информацию о файле FQ.
Формат fastq чем открыть
Часть 3. Обработка файлов секвенирования от А до Я
В лабораториях обработка результатов секвенирования состоит из множества запусков специальных программ. Эти шаги организуют в виде конвейера действий (pipeline), в который на входе подаются FASTQ-файлы, а на выходе получают VCF-файл. Или таблицу, удобную для анализа человеком.
При помощи Galaxy и snpEff мы пройдем все эти шаги поэтапно, каждый раз останавливаясь и проверяя, что же мы получили.
Скорее всего, у вас уже есть готовый VCF-файл. Поэтому, если вы хотите сразу перейти к анализу генетических нарушений, то можно пропустить следующую главу о выравнивании и перейти к главе об аннотировании.
Но откуда вообще может возникнуть необходимость пройти весь путь от FASTQ до VCF-файла?
1) VCF-файла может не быть, если лаборатория не проводит постобработку данных.
2) Если вы проводили секвенирование несколько лет назад, то данные в BAM и VCF-файлах могли быть выровнены по референсному геному GRCh37/hg19, который не совместим со многими новыми базами данных.
3) В VCF-файл включаются не все варианты, некоторые отфильтровываются по тем или иным критериям. Кроме того, у лаборатории могут быть свои стандарты обработки и вывода данных, которые создадут проблемы при последующем анализе.
Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
Прочитанные секвенатором Illumina последовательности ДНК обычно хранятся в нескольких (двух и более) парных FASTQ файлах, упакованных в архив (расширение fastq.gz).
Поскольку работа с FASTQ-файлами очень ресурсоемкая, к тому же требует много времени, мы воспользуемся мощной и бесплатной веб-платформой Galaxy. Вы можете прочитать эту официальную и подробную инструкцию, но в ней указаны не все шаги, а о некоторых правильных действиях приходится догадываться.
Поэтому я описал свои действия здесь и снял их на этом видео.
Рекомендую параллельно использовать текстовое описние ниже, видео и официальные инструкции.
Зарегистрируемся и подтвердим в email аккаунт на сайте Galaxy https://usegalaxy.org/
А затем выбрав в выпадающем списке Rename.
Загрузим наши упакованные файлы на сервер, кликнув иконку загрузки:
Дождемся пока файлы загрузятся и появятся в правой колонке подсвеченные зеленым фоном.
Прежде чем приступать к анализу, наверняка будет интересно проверить качество секвенирования, оценив данные в FASTQ файлах. Для проверки качества введите в строке поиска «fastqc». И выберите из выпадающего списка инструмент FastQC Read Quality reports.
В верхнем поле «Short read data from your current history» нужно указать на иконку выбора нескольких файлов и потом на предварительно загруженные FastQ файлы. Затем нажать «Execute».
Прежде чем приступать к анализу, наверняка будет интересно проверить качество секвенирования, оценив данные в FASTQ файлах.
Секвенирование Illumina основано на идентификации отдельных молекул ДНК. У каждой из четырех молекул будет своя длина волны. Но из-за несовершенства процесса секвенирования и ограничений оптических инструментов, считывание (т.е. базовый вызов или base calling) всегда будет иметь не точный, а вероятностный характер. По этой причине файлы FASTQ хранят вместе с каждым считанным нуклеотидом, показатель качества – вероятность ошибки.
В биоинформатике используется статистическая функция phred quality score, которая определяет, насколько вероятно, что отдельный прочитанный нуклеотид (базовый вызов) может быть неверным. Например, оценка Phred 10 соответствует одной ошибке в каждых 10 базовых вызовах или точности 90%; оценка Phred 20 соответствует одной ошибке в каждых 100 базовых вызовах, или точности 99%.
Я посмотрел разницу между примерами качественных, некачественных и моих данных. Судя по зеленому флажку, мои данные приемлемого качества – лишь небольшая часть базовых вызовов приближается к Phred 20.
Вот пример хорошего качества.
Вот пример плохого качества.
Качество моих данных.
Но дальнейшие действия должны быть не произвольными, а одновременными для пар файлов.
Парными FASTQ-файлы называют потому, что чтение отрезков ДНК происходит с двух концов. Прямое и обратное прочтение сохраняются каждое в отдельном файле.
Направление прочтения должно быть указано в имени файлов. У файлов с прямым прочтением будет имя похожее на ***forvard.fastq.gz, а у файлов с обратным прочтением будет имя ***reverse.fastq.gz. Или различные направления будут обозначаться буквами R1 и R2.
Например, четыре наших файла с результатами секвенирования выглядели как в первом примере:
Важно разобраться и не путать, в каких файлах находится прямое, а в каких обратное направление прочтения.
Если есть сомнения, не допустили ли вы ошибку с выбором пары, то лучше сразу отменить задание и создать его повторно, поскольку времени на его выполнение может уйти много, а ошибку мы выявим уже при работе с VCF-файлом.
Если мое объяснения не все прояснило, посмотрите видео главы «Mapping against a pre-computed genome index» по ссылке.
Далее очистим данные при помощи инструмента Trimmomatic, обрезая так называемые «адаптеры». Это служебный ДНК, который был необходим для проведения секвенирования Illumina.
Вводим в строке Trimmomatic, выбираем в выпадающем меню «Single-end or paired-end reads?» строку «Paired-end (two separate input files)»
Выбираем первый файл прямого и первый файл обратного прочтения среди загруженных файлов. Нажимаем «Execute».
Аналогично поступаем для следующих пар.
Мы получили пары очищенных файла с префиксом Trimmomatic.
Теперь можно выровнять парные файлы по эталонному геному и получить BAM файлы, в которых все прочитанные нуклеотиды будут выстроены по порядку.
Наберем в строке поиска «BWA-MEM», затем в меню поиска выберем строку «Map with BWA-MEM – map medium and long reads (> 100 bp)». Затем в строке «Using reference genome» наберем 38 и выберем «Human (Homo sapiens) (b38): hg38». То есть выберем последнюю версию референсного генома.
Важно! Если вы знаете, что вам придется использовать старые базы данных (где указаны кода GRCh37 и hg19), тогда для совместимости вам нужна предыдущая версия. В этом случае, здесь и далее наберите hg19 и выберите «Human (Homo sapiens) (b37): hg19». Иначе лучше использовать сборку hg38.
В поле «Single or Paired-end reads» указываем «Paired».
После чего появятся два поля с текстом «Select first set of reads» и «Select second set of reads». Возле них нужно выбрать иконки сдвоенных файлов, если у вас более чем два FASTQ-файла. При этом мы выбираем не исходные, а очищенные файлы с префиксом Trimmomatic.
В первом поле (кликая по порядку возрастания номеров!) выбираем файлы прямого чтения (с обозначением forward или R1), зажимая при выборе файлов клавишу ctrl.
Затем во втором поле, тоже по порядку возрастания, выбираем файлы обратного чтения (обозначения reverse или R2). Нажимаем «Execute».
Мы получим один или несколько выровненных BAM файлов, по числу файлов архива. Их имена будут начинаться со слов «Map with BWA-MEM on data…».
Объединим BAM-файлы в один.
Наберем в строке поиска «MergeSamFiles», затем в меню поиска выберем строку «MergeSamFiles merges multiple SAM/BAM datasets into one».
Затем в поле «Select SAM/BAM dataset or dataset collection» выберем два выровненных BAM-файла «Map with BWA-MEM on data…» и выполним команду.
В итоге должен получиться третий объединенный BAM-файл, который начинается с префикса «MergeSamFiles…».
Мы выровняли наш геном по эталону. А теперь мы выявим отличия нашего генома от эталона. Процесс сравнения называется variant calling. Те прочтения, которые отличаются от эталонного генома, записывают в VCF-файл. (Аббревиатура VCF означает variant call format).
Variant call мы будем делать при помощи мощного статистического детектора «FreeBayes».
Найдем его через строку поиска.
Здесь нам нужно указать на объединенный BAM-файл «MergeSamFiles…» и выбрать референсный геном «Human (Homo sapiens): hg38» (или же hg19, если вы пользуетесь не новыми, а старыми базами данных).
На выходе мы получим довольно большой VCF-файл, который начинается с префикса FreeBayes. Для экзома он содержит несколько миллионов строк, множество из которых будут с низким числом прочтений. Как правило, это прочтения за пределами кодирующих участков гена, которые не имеют особой ценности.
Отфильтруем прочтения низкого качества при помощи инструмента SnpSift Filter. На вход к нему подаем файл FreeBayes. Здесь в поле «Filter criteria» вставим текст «( QUAL > 30 ) & ( DP > 20 )».
То есть мы отсекаем прочтения с качеством по шкале Phred менее 30. Наверное, стоит сказать, что если мы используем FreeBayes, то в фильтре QUAL нет большого смысла. Потому что каждое прочтение будет вносить свой вклад в качество, а в итоге оно будет высоким и неинформативным. Но, возможно, мы отсечем какие-то совсем некачественные варианты.
Также отсечем прочтения с покрытием менее 20 (для экзома такая глубина отсечения кажется подходящей).
Количество записей относительно исходного VCF-файла (FreeBayes) сокращается более чем в 10 раз.
VCF-файл содержит, в общем, понятные аннотации относительно гомо- или гетерозиготности варианта (0/1, 1/1). Также, сравнивая фрагмент эталонного и альтернативного варианта, можно понять какой он – SNP, индель или сложная замена. Однако, для облегчения последующего анализа, можно добавить и более понятные аннотации с помощью функции SnpSift Variant Type.
Далее аннотируем VCF-файл записями из базы dbSNP, чтобы упростить себе задачу и не делать этого на локальном компьютере.
Сначала подключим нужную базу данных, перейдя по ссылкам Shared Data > Data Libraries.
В библиотеке выберем dbSNP, затем кликнем на версию dbSNP_146_hg38.vcf.
Кликнем на вкладке to History и выберем нашу историю.
Вернемся на страницу проекта и введем в строке поиска «dbsnp», а затем выберем в меню «SnpSift Annotate SNPs from dbSnp».
Здесь в первой строке выберем файл, который начинается с префикса SnpSift Variant Type, а во второй – загруженную базу данных. Выполняем действие.
Теперь в нашем VCF-файле появились rs-записи в поле ID. Это уникальные RefSNP идентификаторы известных вариантов, о которых мы говорили выше. Также добавилось множество другой полезной информации в поле INFO.
Скачаем полученный VCF-файл (см. рисунок).
Что мы будем делать с VCF-файлом?
Конечно, Galaxy – прекрасное творение энтузиастов биоинформатики. Ее возможности огромны. Но, к сожалению, мне не удалось добиться совместимости с последними версиями баз данных Clinvar, dbNSFP, GWAS. А работать желательно с обновленными источниками. Поэтому для аннотирования VCF-файла мы спустимся с облачного сервиса на локальный компьютер.
Следующий вопрос, что же мы будем делать с VCF-файлом?
Первый этап – аннотирование VCF файла. В процессе аннотирования программа snpEff, точнее ее инструменты, автоматически добавят важную информацию. Аннотации включают описание ассоциированных заболеваний, прогноз влияния варианта на функцию гена, частоты аллелей и множество других полезных данных. Поскольку медицинские базы данных периодически дополняются, нам желательно использовать последние версии.
Второй этап – фильтрация и форматирование. На основе сделанных аннотаций, будут удалены данные, которые не влияют на функцию гена и скорее всего не имеют значения для здоровья. Результаты нужно будет сохранить в табличном виде.
Третья часть – сортировка и анализ табличных данных в Excel пои помощи инструментов интерпретации. Описанные нарушения нужно сравнить с проявлениями (фентоипом). Это самая трудоемкая, потому что «ручная» работа. Возможно, придется проверить сотни записей.
В следующих главах опробуем пройти весь этот длинный путь по порядку.
Можно сказать, что большая часть данных секвенирования избыточна, поскольку прочитанные варианты совпадают с эталонным геномом и неинтересны. Для анализа важны только различия, которые и записаны в VCF-файле.
Пропустив большую шапку, посмотрим на первые два столбика файла.
Под заголовком #CHROM идет порядковый номер одной из 23 пар хромосом, в которые упакованы нити ДНК.
Напомню, что 22 хромосомы парные (аутосомные), то есть одинаковы у мужчин и женщин. У мужчин кроме них есть непарные половые Х и Y-хромосомы. А у женщин есть две Х хромосомы, то есть, все 23 хромосомы парные. Хромосомы обозначают по порядковым номерам. Например, chr5 (5-я хромосома) или chrY (Y-хромосома).
POS – позиция прочитанной молекулы ДНК, одной из миллионов, по всей ее длине. Номера идут по возрастающей.
ID – обычно заполняется в процессе аннотирования уникальными номерами вариантов из «энциелопедии» dbSNP.
Разобравшись в предыдущей главе с аллелями, мы можем взглянуть на пятый и шестой столбики VCF файла, которые называются REF и ALT. Здесь REF – это заранее известный эталонный аллель, а ALT – найденные отличия от эталона, то есть, альтернативный аллель. Если альтернативными оказались оба гетерозиготных аллеля, то записывается их пара, разделенная запятыми.
Гетерозиготные варианты проявляются как позиции, где приблизительно половина чтений соответствует эталону, а другие показания отличаются от эталона.
0/1 – образец является гетерозиготным и содержит 1 копию каждого из аллелей – эталонного REF и альтернативного ALT
1/1 – образец является гомозиготным и отличается от эталона.
Сочетание 0/0 (гомозиготный эталонный) обычно не заносится в файл вместе с самой записью, потому что не имеет значения для анализа.
QUAL – качество. Это важный интегрированный параметр, который позволяет исключить варианты аллеля ALT, которые кажутся сомнительными. Как рассчитывается качество, я писал выше.
Аннотирование VCF-файла c программой snpEff
Аннотирование VCF-файла – ресурсоемкий процесс. Важно, чтобы на компьютере было установлено не менее 4Gb оперативной памяти (лучше 8Gb и больше). Мощный процессор, SSD диск и высокоскоростной интернет также существенно ускорят работу.
Работать придется не в Windows, а в Linux, потому что именно эту среду выбрали биоинформатики для своих проектов. Но не пугайтесь, если вы не сталкивались с Linux раньше. Мы установим не полноценный Linux, а эмулятор Cygwin, который прост в работе и должен нормально справиться с нашими задачами.
Пользователям Linux я рекомендую параллельно смотреть эту ссылку. А для пользователей Windows предлагаю пошаговую видеоинструкцию.
Прежде всего, скачиваем и устанавливаем Cygwin в корень диска С (это важно!). Можно руководствоваться этим описанием установки.
После запуска Cygwin попросит установить логин и пароль. По имени логина будет создана папка, где будут хранится все файлы.
Заходим в Program Files, находим папку Java и копируем имя папки с версией программы.
Вставляем номер версии в строке вместо “jre1.8.0_261” (стараемся вставлять без пробелов, которые любит добавлять Word) или просто копируем мою строку, если имя вашей версии Java не отличается.
Вставим эту строку в окно терминала Linux. Сразу обращу внимание, что в Cygwin вставка «ctrl+v» по умолчанию не работает, но можно пользоваться правым кликом и меню «вставить». Нажимаем Enter для ввода.
Далее проверяем, что Java запускается, для чего вводим тестовую команду на вывод версии:
Если в результате увидим java version с номером вашей версии, значит путь задан правильно и Java работает.
Заходим в каталог установленной на диске С программы cygwin64, находим там папку home, а в ней папку с именем пользователя, которая была создана автоматически в процессе установки (в моем случае C:/cygwin64/home/Eugene). Распаковываем в нее архив snpEff_latest_core.zip. Появятся папки snpEff, clinEff и некоторые файлы, как на рисунке.
Пробуем запустить программу snpEff, вводим в командной строке
Если в результате мы увидим длинный текст, который начинается с ”SnpEff version SnpEff…”, то программа работает.
Создадим в той же папке, где находятся программы, каталог для VCF-файлов. Скопируем туда ваш VCF-файл и переименуем его в 01.vcf.
Теперь мы добавим первые 19 аннотаций (о них подробнее на английском тут).
Но прежде, чем вводить следующую команду, разберем и исправим ее при необходимости.
1) Важно правильно выбрать объем оперативной памяти, выделяемой компьютером на выполнение команд. Например, если у вашего компьютера лишь 4Gb оперативной памяти, то вместо параметра “-Xmx8g”, здесь и везде далее пишите “-Xmx4g”.
2) Сегодня параллельно используются две основные версии данных, точнее референсных генома, которые нужно четко разделять. В версии GRCh38/hg38, которая вышла в 2013 году, порядковый номер аллеля на хромосоме уже не советует предыдущей версии GRCh37/hg19. Это означает, что обязательно нужно выбирать соответствующие версии баз данных.
Чтобы выяснить, какая у вас версия, достаточно заглянуть в шапку VCF-файла. Если вы увидите в строках со словами reference или assembly «hg19», то референсный геном был GRCh37/hg19. Если же вы увидите «hg38», то референсный геном был GRCh38/hg38.
3) Важно правильно создавать структуру каталогов и прописывать пути к ним. Если вы допустите ошибку, вставите лишний пробел или длинное тире вместо знака минус, то программа выдаст ошибку.
Все, что написано ниже, относится к версии референсного генома GRCh38/hg38. Но отдельно в конце главы я продублировал команды и ссылки для версии GRCh37/hg19.
Также все, что написано ниже, относится к экзому. Вероятно, команды будут работать и с геномом, но будут пропущены некодирующие области ДНК.
Перейдем к первой команде аннотирования файла.
В папке vcf сразу появится выходной файл 02.anncanon.vcf. Но пока программа snpEff не загрузит базу данных размером более 600 Mb, его размер будет нулевым и с ним ничего происходить не будет. Сначала база будет загружаться в папку tmp программы Сygwin32. После загрузки она автоматически переместится в раздел data программы snpEff. В случае повторного обращения, база данных заново загружаться не будет, а будет сразу браться из папки data.
Интересно, что в процессе аннотирования наиболее сильно используются не ресурсы процессора, а память.
Чтобы убедиться, что файл был аннотирован, откроем в Notepad++ и сравним два варианта, пропустив всю шапку.
Добавились имя гена (OR4F5), тип варианта (synonymous_variant), степень влияния на функцию гена (LOW) и множество других аннотаций.
Чтобы сделать удобным будущий анализ в Excel, мы вывели выходной файл в каноническом структурированном виде (в строке за это отвечает установленный параметр “-canon”).
Нас очень интересует клиническая информация о наших вариантах. Чтобы ее получить, загрузим свежую версию базы данных Clinvar. Для референсного генома GRCh38/hg38 ее можно найти на сервере NCBI (известном как Pubmed), по этой ссылке.
Замечу, что иногда сервер блокирует IP определенных провайдеров, поэтому, если ссылка покажется не рабочей, включите какой-нибудь VPN (например, плагин Hotspot Shield Free VPN Proxy для Chrome).
Теперь, если мы все сделали правильно, то можем аннотировать наш файл с Clinvar. Вводим:
Были проаннотированы варианты, о которых известна какая-нибудь клиническая информация (в моем случае, около 7% записей VCF-файла).
Добавилось связанное с вариантом потенциальное заболевание, частота аллеля в популяции из проекта 1000 Genomes, характер влияния на потенциальное заболевание и многая другая информация.
Более подробно об аннотациях можно почитать здесь.
Вероятно, вам покажутся полезными аннотации из каталога GWAS (полногеномного поиска ассоциаций). Этот каталог не поможет найти редкие менделевские заболевания, но позволит выявить генетические факторы риска и дать прогноз о предрасположенности к распространенным заболеваниям и состояниям.
Замечу, что ссылка в инструкции к snpEff не работает, но каталог (размером 101Mb) можно скачать здесь.
Переименовываем файл “gwas_catalog_v1.0-associations_e100_r2020-06-30.tsv” в “gwascatalog.txt”, затем сохраняем его по такому пути: /db/GRCh37/gwasCatalog/gwascatalog.txt (потому что именно там его будет искать snpEff, несмотря на более свежую версию референсного генома).
Выполняем еоманду в терминале Linux.
В моем случае было аннотировано 2.6% строк.
Следующая аннотация будет из базы данных dbNSFP. Она разработана для функционального прогнозирования вариантов в экзоме человека. Для большинства вариантов в кодирующей области, dbNSFP содержит десятки оценок, как на основе популяционных и филогенетических исследований (частота аллелей, консервативность участка), так и на основе моделей повреждения гена (например, MutationTester).
В инструкции к snpEff для референскного генома GRCh38 / hg38 рекомендуют использовать версию dbNSFP 3.2 Academic размером 14.4 Gb. На момент подготовки статьи ее можно было скачать по этой ссылке, а индексный файл, по этой ссылке.
В каталоге snpEff/data создадим папку dbnsfp и сохраним там оба файла. Затем выполним команду.
В моем случае было аннотировано 7.75% данных.
Теперь мы удалим варианты низкой степени воздействия на функцию гена (LOW и MODIFIER), если только они не были аннотированы интересующими нас записями из баз данных Clinvar, GWAS, dbNSFP или dbSNP.
Все это мы сделаем при помощи команды filter:
Сформируем таблицу, в которой оставим максимум информации и которую можно будет открыть в Excel.
Перейти по этой ссылке, где нас интересуют 4 файла (clinvar.vcf.error.txt, clinvar.vcf.gz, clinvar.vcf.gz.md5, clinvar.vcf.gz.tbi), которые нужно скачать. В каталоге snpEff сохраним эти файлы по пути: data/GRCh37/clinvar/, для чего создадим соответствующие папки.
Для удобства анализа добавим текстовое описание типа варианта (SNP, вставка, делеция или смешанный), а также гетерозиготность/гомозиготность.
Содержание:
Часть 3. Обработка файлов секвенирования от А до Я
3.1. Выравнивание данных в Galaxy: от FASTQ к VCF-файлу
3.2. Что мы будем делать с файлами?
3.3. Аннотирование VCF-файла c программой snpEff
- Формат fastinfoset что это
- Формат fat что это