Визуализа́ция да́нных секвени́рования РНК — способ визуального представления данных, полученных с помощью РНК-секвенирования (RNA-seq) в наглядной форме, с помощью которого можно увидеть картирование полученных чтений на геном и анализировать уровень экспрессии гена. Существует множество программ, позволяющих осуществить визуализацию.
РНК-секвенирование (RNA-seq) — технология, позволяющая определять последовательности молекул РНК, причём как кодирующих мРНК, так и некодирующих РНК. В основе метода лежит использование технологии секвенирования нового поколения NGS, которая позволяет устанавливать фрагменты кДНК (комплементарной ДНК), в которую предварительно переводят выделенную из биологического образца РНК[1]. С разработкой методов NGS стало возможным проще проводить анализ транскриптома, в том числе и транскриптома отдельной клетки, что было ранее невозможно при применении более старого способа с использованием ДНК-микрочипов[2][3]. Помимо мРНК данная технология позволяет также исследовать миРНК, тРНК и рРНК[4].
Подготовка и картирование данных секвенирования РНК
Получив «сырые» данные секвенирования РНК одним из методов NGS, их прежде всего нужно подготовить: удалить плохие по качеству прочтения и обрезать у оставшихся края, содержащие ошибки и последовательности адаптеров, чтобы в итоге получились последовательности длиной примерно 50 нуклеотидов с высоким показателем качества. Стандартной программой для выполнения подобной коррекции является Trimmomatic. Она разработана для операционной системы Linux и запускается из командной строки[5].
Для проверки качества часто пользуются программой FastQC, которая обращает внимание на несколько критериев, таких как распределение качества прочтенных остатков и процент встречаемости нуклеотидов каждого типа в зависимости от их положения, а также распределение последовательностей по их среднему качеству и GC-составу. Одним из важных показателей является процент уникальных последовательностей (то есть тех, что присутствуют в наборе данных с минимальной степенью дубликации), так как их содержание < 50 % говорит о переамплификации образцов на финальном этапе подготовки, что приводит к потере детекции мРНК, присутствующих в клетках в небольших количествах[6]. Если уровень качества прочтений в целом неудовлетворительный, то повторно проводят коррекцию и чистку «сырых» данных. Если же результаты оказались удовлетворительными, то данные картируют на референсный геном для оценки того, как именно получившиеся прочтения (риды, англ.reads) распределены[7].
Для этого существует также огромное количество программ в зависимости от поставленной задачи. Все их можно разделить на две части: для сборки de novo (например Trinity[8], SOAPdenovo-Trans[9], Rnnotator[10] и Trans-ABySS[11]) и для сборки при наличии референсного генома (например STAR[12], Bowtie2[13], TopHat[14] и BWA[15]). После картирования также необходимо проверить качество получившихся выравниваний такими программами, как Picard[16], RNA-SeQC[17], FasrQC[6] и RSeQC[18]. Здесь одним из наиболее важных параметров является процент откартировавшихся прочтений, который отражает точность секвенирования. В норме для генома человека он должен составлять не менее 70 % от всех ридов. Другим ключевым показателем является процент уникальных последовательностей, то есть тех, что специфически откартировались на геном (в одно конкретное место). Если он больше или равен 30 %, можно утверждать, что полученные данные достоверны. И только после того, как очищенные и картированные данные с РНК-секвенирования пройдут последний контроль качества, можно приступать к их нормировке и визуализации[7].
Визуализация данных секвенирования РНК
Данные, получаемые в результате секвенирования РНК, очень велики, могут достигать гига- и терабайтов. Для того, чтобы любой желающий мог визуализировать данные, выложенные в открытом доступе или полученные в своей лаборатории, и существуют программы-визуализаторы. Они позволяют увидеть неровное покрытие, в то время как компьютерные численные методы анализа данных РНК-секвенирования предполагают, что покрытие транскрипта чтениями более-менее равномерное или зависит от нескольких факторов (таких как mappability, GC-содержание), однако это не всегда так. Помимо этого, использование данных программ позволяет подготавливать качественные изображения, приемлемые для использования в научных статьях[19].
Геномные браузеры. Это онлайн-серверы, позволяющие загружать данные и обращаться к уже существующим (в открытом доступе), например, UCSC Genome Browser и Zenbu.
Автономные приложения. Устанавливаются на пользовательский компьютер или локальный сервер. Централизованно хранят большое количество данных. Например, Integrative Genomics Viewer, Integrated Genome Browser с графическим пользовательским интерфейсом и ASCIIGenome с запуском из консоли.
Гибридные программы. Предоставляют функциональность геномных браузеров как в виде онлайн-сервера, так и в виде автономного приложения. Типичный пример: BioUML.
Программы для визуализации данных секвенирования РНК
Integrative Genomics Viewer
Программа Integrative Genomics Viewer (IGV) была разработана в Broad Institute в 2011 году[21]. Integrative Genomics Viewer позволяет интуитивно в реальном времени исследовать крупномасштабные наборы геномных данных через настольное Java-приложение, веб-приложение IGV-Web, а также igv.js — компонент JavaScript, который может быть встроен в веб-страницы[22]. IGV может быть использован на компьютерах с операционными системами Windows, Mac и Linux, а также на iPad. Эта программа представляет собой мощный инструмент не только для визуализации данных РНК-секвенирования, но и для просмотра других данных секвенирования нового поколения, а также данных, полученных с помощью секвенирования на чипах. Он поддерживает гибкую интеграцию широкого спектра типов геномных данных, включая чтение выравненных последовательностей, мутации, копийность, RNAi-скрины, экспрессию генов, метилирование и геномные аннотации[23].
Использовать данную программу можно при необходимости анализировать данные загруженные как из локальных, так и из удаленных источников, включая облачные ресурсы, что позволяет исследователям просматривать свои собственные наборы геномных данных вместе с общедоступными данными. Так как основная проблема работы с геномными данными это их размер, был использован подход, основанный на предварительной обработке данных в различных масштабах. Была разработана пирамидальная структура данных (так называемая data tiling), позволяющая тратить минимум памяти. Для IGV был также разработан специальный файловый формат TDF (англ.tiled data format)[24]. Для обработки данных RNA-seq рекомендуются форматы TDF и WIG, однако, помимо этих, дополнительно поддерживаются неиндексированные форматы, такие как GFF и BED, индексированные форматы, такие как BAM и Goby, а также форматы файлов с различным разрешением: bigWig и bigBed[23].
Программа в своём функционале имеет возможность масштабирования и перемещения по геному на любом уровне детализации — от целого генома до пары оснований. В зависимости от масштаба IGV будет отображать различные параметры, такие как покрытие, выравнивание и т. д. До загрузки данных необходимо сперва загрузить референсный геном, который можно выбрать либо из представленных самим IGV, либо импортировать извне. Для анализа данных выравниваний используется цветовая кодировка, а также уровень прозрачности, что позволяет удобным образом выявлять однонуклеотидные полиморфизмы. Помимо этого, существуют инструменты для идентификации повторов, вставок, делеций и т. д. Предусмотрена возможность взаимодействия с Matlab и программами Microsoft Office[21].
Sashimi Plot
Скриншот работы Sashimi Plot, запущенной через IGV
Sashimi Plot — утилита, позволяющая визуализировать данные анализа РНК-секвенирования для изучения экспрессии изоформ. Данная программа начала разрабатываться в 2011 году и является частью проекта MISO (Mixture of ISOforms), который занимается проблемами альтернативного сплайсинга в данных РНК-секвенирования[25].
Sashimi Plot можно запускать из командной строки, установив пакет MISO, или использовать через IGV[25]. Программа принимает на вход сырые данные, и строит распределения результатов RNA-seq вокруг экзонов для нескольких выборок, одновременно визуализируя модель гена, на который картируются риды[26].
Sashimi Plot позволяет строить графики, отражающие уровень экспрессии экзонов и их возможные соединения. Благодаря этому можно сформировать предположения о возможной структуре изоформ гена, а также синтезировать графики распределения длин вставок. Также он показывает оценки MISO для рассматриваемых событий и способен совмещать несколько образцов на одном и том же рисунке. Утилита позволяет создавать изображения, готовые к публикации, и разрешает сохранять картинки в нескольких форматах (включая PDF и PNG)[25].
Tablet
Скриншот работы программы Tablet
Tablet — программа-визуализатор геномных данных, позволяющая просматривать данные РНК-секвенирования. Данная программа написана на Java и доступна на компьютерах с операционными системами Windows, Mac и Linux, поддерживает цветовую кодировку для построения выравниваний и форматы данных ACE, AFG, MAQ, SOAP2, SAM, BAM, FASTA, FASTQ и GFF3. Tablet была разработана специально для обработки данных, получаемых с помощью технологий второго поколения секвенирования в 2009 году[27]. Последняя версия программы была выпущена в 2017 году[28].
Tablet позволяет сопоставлять транскриптомные данные с референсным геномом для оценки существующих моделей генов, например границ интронов и экзонов в эукариотах. Программа позволяет визуально оценивать вероятность альтернативного сплайсинга, а также может использоваться для поиска SNP (однонуклеотидных полиморфизмов) на основании данных RNA-seq[29].
RNAseqViewer
RNAseqViewer предназначена для визуализации одного или нескольких образцов РНК-секвенирования. Программа была разработана в 2013 году. Она доступна на трех языках (английский, китайский или французский) и совместима с операционными системами Windows, Ubuntu, Debian, а также возможен запуск через консоль[30].
Основная задача — визуализация уровня экспрессии генов и альтернативного сплайсинга. Интерфейс позволяет плавно перемещаться по геному с помощью мыши, клавиатуры или кнопок управления программы, также возможно обращение к конкретной точке генома через координаты или название гена[19].
Программа имеет инновационный подход к представлению транскрипционных данных. На вход программа принимает 7 типов файловых форматов. В зависимости от формата программа может визуализировать тепловую карту (SAM/BAM), связи между ридами (BED), нуклеотиды (FASTA), аннотацию генов (RefFlat/GTF) и гистограмму экспрессии (Wiggle), а также позволяет осуществлять просмотр всего транскриптома (GFF). Программа предоставляет возможность экспортировать данные во множество различных форматов, в том числе и PDF[19].
Integrated Genome Browser
Скриншот работы программы IGB
Integrated Genome Browser (IGB) — программа, разработанная компанией Affymetrix в 2004 году, позволяющая просматривать данные РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома[31]. IGB была создана на основе Java библиотеки Genoviz SDK, она совместима с операционными системами UNIX, Linux, Mac и Windows[32].
CBrowse
CBrowse — инструмент для визуализации и анализа, основанный на использовании форматов SAM или BAM. Программа была разработана в лаборатории Liang в 2012 году[33]. На официальном сайте можно скачать программу, а также найти видеоролик о ее установке и использовании, инструкцию и примеры вывода каждой команды. На вход программе необходимо передать файл с последовательностью контигов, а также соответствующий SAM/BAM файл. Она обрабатывает входные данные, проводит поиск однонуклеотидных полиморфизмов и повторов, создает изображение, JSON-, MySQL-совместимые файлы, которые могут быть использованы в других программах[34].
Непосредственно за визуализацию отвечает программа Alignment Viewer, которая позволяет визуализировать выравнивание последовательностей в различном масштабе (от просмотра целых последовательностей до отдельных нуклеотидов), причём с различной цветовой кодировкой различий в нуклеотидных позициях[34].
Помимо этого существует еще 4 инструмента для анализа[34]:
Contig viewer — программа для просмотра контигов, предоставляет общую информацию о сборке, также как и об индивидуальном контиге.
Sequence viewer — программа-просмотрщик, позволяет пользователям искать нуклеотидные последовательности в контигах.
Polymorphism Viewer — программа, предназначенная для поиска полиморфизмов (однонуклеотидные полиморфизмы, а также одиночные вставки/делеции и другие полиморфизмы), она показывает их координаты и частоту в каждом контиге.
SSR Viewer — программа, обеспечивающая поиск простых повторов в последовательности в каждом контиге (повтор с размером 1-12 нуклеотидов, причём как с идеальным соответствием, так и с неполным совпадением).
svist4get
svist4get — программа для визуализации данных высокопроизводительного секвенирования, в том числе RNA-seq. Разработана в 2019 году. Поддерживается операционной системой Linux. Сама программа написана на языке программирования Python 3 и позволяет получать наглядные изображения для публикации в научных журналах[20].
svist4get можно использовать как инструмент командной строки, а также в режиме API. Инструмент использует визуализацию в векторной графике и поддерживает широкую кастомизацию. Удобен еще и тем, что позволяет на одном изображении отобразить данные из разных биологических образцов и полученные разными методами[20].
Другие
Artemis — геномный браузер и программа для аннотирования, визуализирующая данные РНК-секвенирования и позволяющая просмотреть белковую последовательность в 6 возможных рамках считывания. Написана на языке программирования Java и устанавливается на операционные системы UNIX, Macintosh и Windows[35].
Apollo — программа для визуализации и аннотирования, удобна для использования несколькими людьми — позволяет синхронизировать данные между ними[36].
Degust — интерактивный инструмент для визуализации данных дифференциальной экспрессии генов. Он не показывает, как именно прочтения откартировались на референсный геном, но позволяет наглядно по спектру показателей изучить полученные данные. Работает с входными данными в CSV формате[38].
GBrowse — пакет программ, которые позволяют визуализировать данные и анализировать их. Позволяет на одном экране одновременно отображать как расположение интересующего участка на хромосоме, так и более детальное покрытие интересующего участка ридами, а также расположение полиморфизмов и GC-состав[39].
GenomeView — автономная программа визуализатор и редактор, позволяющая работать с множеством форматов файлов[40].
Tbrowse — простой, интуитивно понятный автономный браузер для визуализации данных РНК-секвенирования. Написан на языке программирования Java. Последнее обновление было в 2010 году[41].
Savant — автономный инструмент для визуализации данных высокопроизводительного секвенирования (в том числе и РНК-секвенирования). Функционал визуализации минимален, пригоден для личного пользования, но не для публикаций[42].
Gviz и ggbio — пакеты на языке программирования R, которые позволяют генерировать картинки по данным РНК-секвенирования, пригодные для публикации в научных журналах[43][44].
fluff и ngs.plot — утилиты, запускаемые с командной строки. Предоставляют расширенный функционал для анализа данных, но минималистичные возможности визуализации конкретных сегментов генома[45][46].
↑Robertson Gordon, Schein Jacqueline, Chiu Readman, Corbett Richard, Field Matthew, Jackman Shaun D, Mungall Karen, Lee Sam, Okada Hisanaga Mark, Qian Jenny Q, Griffith Malachi, Raymond Anthony, Thiessen Nina, Cezard Timothee, Butterfield Yaron S, Newsome Richard, Chan Simon K, She Rong, Varhol Richard, Kamoh Baljit, Prabhu Anna-Liisa, Tam Angela, Zhao YongJun, Moore Richard A, Hirst Martin, Marra Marco A, Jones Steven J M, Hoodless Pamela A, Birol Inanc.De novo assembly and analysis of RNA-seq data (англ.) // Nature Methods. — 2010. — 10 October (vol. 7, no. 11). — P. 909—912. — ISSN1548-7091. — doi:10.1038/nmeth.1517. [исправить]