Поиск сайтов связывания транскрипционных факторов in silico
Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции в последовательности нуклеотидовДНК при помощи компьютерных алгоритмов. Сайты связывания представляют собой короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований, имеющие высокое сродство к факторам транскрипции. Эти короткие последовательности ДНК называются мотивами[1][2][3]. Аналогично при помощи компьютерных алгоритмов ищутся сайты связывания кофакторов, полимераз, сайты сплайсинга и повторяющиеся элементы в ДНК. Обнаружение мотивов позволяет лучше понять регуляцию транскрипции, сплайсинг мРНК и образование белковых комплексов.
Одним из популярных способов представления мотива является консенсус — слово, составленное из обозначений нуклеотидов, наиболее часто встречающихся в конкретных позициях сайта. Для записи консенсуса могут использоваться обозначения нуклеотидов в соответствии с номенклатурой ИЮПАК[1].
Например, для последовательностей вида:
TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT
консенсус ИЮПАК будет выглядеть следующим образом:
TATRNT
Когда консенсус нестрогий, представление мотива может включать в себя экземпляры с очень низкой аффинностью связывания. С другой стороны, очень строгий консенсус может не охватить все реально существующие вариации мотива [1][3].
Вторым наиболее популярным методом является использование позиционной весовой матрицы (ПВМ). ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых сайтов связывания, но возникает проблема отделения слабых мотивов от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива (позиции считают независимыми друг от друга). Однако существует динуклеотидная ПВМ, использующая 16-буквенный алфавит (AA, AC, AT, …..., CG, GG). Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами [1]. Эта модель реализована в методах обнаружения мотивов Dimont[4] и diChIPMunk[4] .
Методы контролируемой классификации
Модели, использующие байесовские сети, позволяют установить зависимости между позициями внутри мотива, однако не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например, скрытые марковские модели) или с использованием метода опорных векторов. Подобные методы позволяют искать мотивы со спейсерами — участками вариабельной длины между двумя полусайтами двойных мотивов (каждый полусайт представляет собой участок посадки одной из субъединиц димера транскрипционного фактора) [1].
Основные задачи
В анализе геномных последовательностей при поиске мотивов выделяют две ключевые задачи[3]:
Идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных;
Обнаружение неизвестных мотивов de novo. Задача актуальна, когда есть набор промоторных последовательностей с предполагаемым общим транскрипционным фактором, но сам фактор транскрипции или сайты связывания для фактора транскрипции неизвестны.
Поиск мотивов на основе уже известных
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся гены с общими факторами транскрипции или оценить влияние мутаций в последовательности мотива на связывание с транскрипционным фактором[1].
Информация о сайте связывания транскрипционных факторов в последовательностях ДНК получается экспериментально такими методами, как SELEX, РВМ (protein binding microarrays)[5] или ChIP[англ.]-х (то есть, ChIP-seq, ChIP-exo, ORGANIC[6], ChIP-on-chip. Полученные в результате экспериментов последовательности сайтов связывания описываются моделью (мотивом). На данный момент уже известно много мотивов, собранных в различные базы данных. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива из базы данных именуется экземпляром мотива (хитом) или словом[1].
Точная последовательность мотива может быть неизвестна, так как в ней могут происходить мутации;
В интересующей последовательности может находиться несколько мотивов (например, сайт связывания транскрипционного фактора и сайт связывания его кофактора), или только один мотив, или же, наоборот, ни одного;
Неизвестно, где находится мотив относительно точки старта транскрипции;
Необходимы критерии для отделения настоящих мотивов от шума.
На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.
Поиск мотивов de novo
Когда позиционная весовая матрица (ПВМ) сайта связывания интересующего фактора транскрипции неизвестна, она может быть получена путем обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого фактора транскрипции. Методика состоит в определении наиболее перепредставленных (т.е. встречающихся чаще, чем можно ожидать случайно) мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-seq экспериментов: HMS[8], cERMIT[9], ChIPMunk[10], diChIPMunk[4], MEME-ChIP[11], POSMO[12], XXmotif[13], FMotif[14], Dimont[4], RSAT[12], and DeepBind[15]. Проверка обнаруженных сайтов связывания транскрипционного фактора может быть осуществлена с использованием комбинации иммунопреципитациихроматина с антителом, специфичным к интересующему фактору транскрипции, и полимеразной цепной реакции в реальном времени с праймерами, специфичными к предсказанному целевому региону[1].
Классификация алгоритмов
Алгоритмы можно классифицировать на основе исследуемых последовательностей и по принципу действия.
По набору исследуемых последовательностей
Алгоритмы поиска мотивов по типам входных данных можно разделить на три основных класса[3]:
использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.
Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг[3].
методы, основанные на операциях со строками (словами), которые в основном полагаются на подсчет и сравнение частот олигонуклеотидов. К ним относятся методы, использующие суффиксные деревья, и методы на основе графов;
Такие методы k-мерного перечисления, как POSMO[19], cERMIT[9], и RSAT-peak-motifs[20], показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-seq. Тем не менее, вероятностные подходы (например, ChIPMunk[10], Dimont[4]) могут обеспечить большую точность результатов[4].
Строковые методы
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных регулярными выражениями, и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких эукариотических мотивов, которые обычно короче, чем у прокариот и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов (алгоритмы Weeder[21] и MITRA (Mismatch Tree Algorithm[22]) или графы (алгоритм WINNOWER[23]). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют слабо консервативные позиции. Недостатком методов также является нахождение большого количества ложных мотивов[3][24].
В данном типе методов можно выделить несколько классов[25]:
Вероятностный подход предполагает представление модели мотива с помощью позиционной весовой матрицы (ПВМ). Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как[3]:
The MEME Suite — программный пакет инструментов с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, РНК и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs)[55] позволяет учитывать вставки и делеции в мотивах.
Для анализа данных ChIP-seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа обогащения мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания транскрипционных факторов с известными связывающими ДНК мотивами[56]. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст[2].
ChIPMunk — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-seq, который использует жадный подход в сочетании с бутстреппингом. ChIPMunk оценивает качество мотива с помощью дискретного информационного содержания Кульбака (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке[57].
Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk
ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц, которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге ChIPMunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ, исходя из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве[10][57].
ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов[1].
Dimont — общий подход для вероятностного дифференциального обнаружения мотивов de novo, который способен обрабатывать данные экспериментов ChIP-seq, ChIP-exo и PBM (белковых микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы[4].
Анализ найденных мотивов
Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из MEME Suite, MACRO-APE и STAMP.
TOMTOM определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве[58].
MACRO-APE позволяет вычислять коэффициент сходства Жаккара для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц в поиске сходства с интересующей ПВМ при заданном пороге или уровне P-значения. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот[59].
Ссылки
Базы данных мотивов
Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов[1]:
JASPAR: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания транскрипционных факторов[60].
TRANSFAC®[англ.]: коммерческая база данных сайтов связывания транскрипционных факторов, ПВМ, и регулируемых генов эукариот.
UniProbe: база экспериментальных данных, полученных в результате экспериментов с использованием технологии белок-связывающих микрочипов (PBM).[61].
SwissRegulon: база данных полногеномных аннотаций регуляторных участков[62].
Fly Factor Survey: база данных сайтов связывания транскрипционных факторов для Drosophila[63].
HOCOMOCO: расширяющаяся и совершенствующаяся коллекция сайтов связывания транскрипционных факторов человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ[64].
footprintDB: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных[65].
Веб-сайты и программы для поиска мотивов и промотерного анализа
Amadeus — требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
i-cisTarget — принимает файлы расширения .BED или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
Pscan — требует список генов и предлагает на выбор 5 интервалов длин промоторов
OTFBS — онлайн-версия принимает не более 200 последовательностей в формате FASTA
Asap — принимает последовательности в формате FASTA; порог ПВМ должен быть выбран пользователем
oPOSSUM-3 — принимает как последовательности в формате списка генов, так и в формате FASTA