Методи фіксації конформації хромосом, часто скорочено до 3С-технологій або методів на основі 3С (англ. Chromosome conformation capture, 3C)[1] — це набір методів молекулярної біології, що використовуються для аналізу просторової організації хроматину в ядрі клітини. Їх застосовують для кількісної оцінки взаємодій між геномними локусами, які розташовані поблизу в тривимірному просторі, але можуть бути розділені багатьма нуклеотидами в лінійному геномі.[2] Такі взаємодії можуть виникати внаслідок біологічних функцій, наприклад, між промотором і енхансером або в результаті випадкового утворення петель полімеру, коли непрямий фізичний рух хроматину викликає «зіткнення» локусів.[3] При цьому регуляторні елементи можуть розташовуватися на відстані декількох мільйонів пар основ від генів, експресію яких вони контролюють.[4] Незважаючи на це, складна конформація ділянки ДНК між ними дозволяє їм безпосередньо взаємодіяти один з одним.[5]
Частоти взаємодій можуть бути проаналізовані безпосередньо[6] або конвертовані у відстані та використані для реконструкції 3D структур.[7]
Основні відмінності методів на основі 3C — це їх можливості і область застосування.[8] Наприклад, при використанні ПЛР для виявлення взаємодії в експерименті 3С кількісно оцінюються взаємодії двох конкретних фрагментів. Навпаки, Hi-C кількісно визначає взаємодію між усіма можливими парами фрагментів одночасно. Глибоке секвенування матеріалу, отриманого за допомогою 3C, також дозволяє скласти карти взаємодій цілого генома.
Історія
Історично мікроскопія була основним методом дослідження ядерної організації[9], який можна датувати ще 1590 роком.[10]
У 1993 році був опублікований аналіз ядерного лігування - метод, який міг визначити частоту циркуляції ДНК у розчині. Цей аналіз був використаний, щоб показати, що естроген індукує взаємодію між промотором гена пролактину та сусіднім енхансером;[19]
У 2002 році Джоб Деккер представив нову ідею про те, що щільні матриці частот взаємодії між локусами можуть використовуватися для виведення просторової організації геномів. Ця ідея стала основою для його розробки аналізу фіксації хромосомної конформації (3С), опублікованого у 2002 році Джобом Деккером та його колегами в лабораторії Клекнера Гарвардського університету;[20][21]
У 2006 році Маріке Сімоні винайшла 4C,[22] а Дості в лабораторії Деккера винайшов 5С;[23]
У 2007 році Б. Франклін П'ю вніс інновації у методику ChIP-seq;[24]
У 2009 році Ліберман-Ейден і Джоб Деккер винайшли Hi-C,[25] Меліса Дж. Фулвуд та Іджун Руан винайшли ChIA-PET;[26]
У 2012 році група під керівництвом Рен та групи під керівництвом Едіт Херд та Джоба Деккера виявили топологічно асоційовані домени (англ. TAD — Topologically Associating Domains) у ссавців;[27][28]
У 2013 році Такаші Нагано та Пітер Фрейзер ввели методику внутрішньоядерного лігування для Hi-C та одноклітинного Hi-C.[29]
Експериментальні методи
Всі методи фіксації конформації хромосом починаються з аналогічного набору маніпуляцій на початковому етапі, що виконується на зразку клітин:
Обробка формальдегідом[30], який зшиває ділянки геному, які розташовані поруч у просторі, таким чином заморожуючи взаємодії між локусами. Найчастіше використовується 1-3 % розчин формальдегіду для фіксації протягом 10-30 хвилин при кімнатній температурі.[31] Однак, необхідна стандартизація для запобігання сшивок білків з ДНК, які можуть заважати рестрикції на наступному етапі;
Фрагментація за допомогою ендонуклеаз рестрикції (рестриктаз). Розмір фрагментів рестрикції визначає роздільну здатність карти взаємодій. Для цього використовуються рестрикційні ферменти (англ. REs — restriction enzymes), які роблять надрізи на послідовності розпізнавання 6 п.н., такі як EcoR1 або HindIII, оскільки вони розрізають геном раз на 4000 п.н., даючи близько 1 мільйона фрагментів у випадку генома людини.[31][32] Для більш точного відображення взаємодій також можуть бути використані 4 п.н. розпізнаваючі рестриктази;
Випадкове лігування, яке проводиться при низьких концентраціях ДНК в присутності Т4 ДНК-лігази[33] або всередині неушкоджених, пермеабілізованих ядер.[29] В результаті «склеюються» кінці зшитих ДНК. Низькі концентрації забезпечують специфічність лігування (тільки між зшитими взаємодіючими фрагментами). Згодом взаємодіючі локуси кількісно оцінюють шляхом ампліфікації лігованих фрагментів за допомогою ПЛР;[31][33]
Створення парної 3С бібліотеки. Термічна обробка призводить до розриву зв'язків і утворення лінійних химерних фрагментів ДНК. В результаті буде створена бібліотека взаємодіючих фрагментів ДНК (3C бібліотека);[34]
Real-time ПЛР дозволяє оцінювати імовірність взаємодії двох конкретних ділянок геному. Проводять підбір праймерів таким чином, що кожен праймер комплементарний своєму відповідному локусу. У разі взаємодії відбувається відпал обох праймерів і ампліфікація фрагмента.[8]
Базові методи
Схематичний огляд експериментальної процедури для 3С та похідних методів
3C (один проти одного)
Метод захоплення конформації хромосоми (англ. Chromosome conformation capture, 3C) необхідний для кількісного визначення взаємодії між обраної парою геномних локусів. Наприклад, 3C можна використовувати для вивчення потенційної взаємодії промотор-енхансер. Ліговані фрагменти детектують за допомогою ПЛР, використовуючи праймери до відомих послідовностей.[10][20] Ось чому ця методика вимагає попередніх знань про взаємодіючі ділянки.
4С (один проти всіх)
Метод замкнутого захоплення конформації хромосоми (англ. Circularized chromosome conformation capture, 4С) охоплює взаємодії між одним обраним локусом і іншими геномними локусами. Він використовується для того, щоб знайти ділянку генома, яка взаємодіє з даною послідовністю ДНК[35] і являє собою комбінацію стандартного методу 3С з інвертованою ПЛР.
Перші 4 етапу збігаються з етапами методу фіксації конформації хромосом. Далі послідовно проводяться фрагментація отриманої 3С бібліотеки рестриктазами; лігування для циклізації фрагментів ДНК, в результаті отримуючи бібліотеку «кільцевих» химерних ДНК (4C бібліотека).[36] Інвертована ПЛР дозволяє ампліфікувати невідому послідовність, використовуючи відому послідовність, зшиту з нею.[22] Аналіз 4С бібліотеки проводиться з використанням ДНК-мікрочипів.
На відміну від 3C і 5C, методи 4C не вимагають попереднього знання нуклеотидних послідовностей обох взаємодіючих хромосомних ділянок.[8] Результати, отримані за допомогою 4С, є надзвичайно відтворюваними при більшості взаємодій, виявлених між регіонами, що є близькими один до одного. На одному мікрочипі можна проаналізувати близько мільйона взаємодій.[1]
5C (багато проти багатьох)
5C розпізнає взаємодії між усіма фрагментами в заданому регіоні, причому розмір цього регіону зазвичай не перевищує мегабази. Він дозволяє шукати ділянки ДНК, які взаємодіють з декількома вибраними ділянками генома і являє собою комбінацію методу 3С і мультиплексной ПЛР.[23]
Перші 4 етапу збігаються з етапами методу фіксації конформації хромосом. Далі послідовно проводяться лігування адаптерів до всіх фрагментів з використанням Taq-лігази; аналіз 5С бібліотеки проводиться з використанням ДНК-мікрочипів і секвенування.[34] 5С корисний для вивчення складних взаємодій, проте має відносно низький покриття. Метод не підходить для вивчення комплексних взаємодій по всьому геному, оскільки для цього будуть потрібні мільйони праймерів 5C.[8]
Hi-C (всі проти всіх)
Hi-C використовує високопродуктивне секвенування для пошуку нуклеотидної послідовності фрагментів.[25] В даному випадку проводиться обробка рестриктазами фіксованого хроматину, біотінілювання кінців і подальше випадкове лігування. Пара послідовностей незалежно картується на геном, що дозволяє виділити фрагменти, задіяні в лігуванні. Таким чином, перевіряються всі можливі парні взаємодії між фрагментами.[29]
Вчені намагаються встановити межі застосування методу Hi-C на прикладі дослідження, присвяченого скринінгу первинних пухлин головного мозку.[37] До онкоскринінгу Hi-C в основному використовувався для досліджень на культурах клітин.[38]
Спеціальні методи
До спеціальних методів можна віднести методи на основі захоплення послідовності, single-cell методи і методи на основі імунопреципітації. Наприклад, single-cell Hi-C може бути використаний для вивчення взаємодій в окремих клітинах.[29]
Методи на основі захоплення послідовності використовують фіксацію олігонуклеотидів для збагачення бібліотек 3C і Hi-C досліджуваних локусів.[39] До них належать: Capture-C[40], NG Capture-C[41], Capture-3C[42] і Capture Hi-C[43]. Ці методи дозволяють досягти більш високої роздільної здатності та чутливості, ніж методи на основі 4C.[8]
Методи на основі імунопреципітації дозволяють виділити локуси, які взаємодіють за допомогою специфічних білків, наприклад, транскрипційних факторів або інсуляторних білків.[44] Серед них можна виділити такі методи, як ChIP-loop і ChIA-PET. ChIP-loop комбінує 3C з ChIP-seq для детекції взаємодії між двома важливими локусами, що опосередкована досліджуваним білком.[45] ChIA-PET поєднує Hi-C та ChIP-seq для детекції всіх взаємодій, опосередкованих досліджуваним білком.[2][26] HiChIP був розроблений з метою аналогічного аналізу, як ChIA-PET з меншою кількістю вхідного матеріалу.[46]
Біологічне значення
Методи 3C сприяли великому числу важливих біологічних відкриттів, включаючи нові дані про структурні особливості хромосом, класифікацію хроматинових петель, а також допомогли поглибити знання про механізми регуляції транскрипції (чиє порушення може призводити до цілого ряду захворювань).[9]
Файл:Tads3с.pngІєрархічна організація 3D-генома a — Усередині інтерфазного ядра окремі хромосоми (представлені різними кольорами) займають окремі території; b — транскрипційно активні регіони, які переважно перебувають у внутрішньому ядерному просторі, мають тенденцію до взаємодії з іншими активними регіонами, утворюючи компартмент A. Неактивні регіони, які переважно пов'язані з ядерною ламіною та ядерцем, мають тенденцію взаємодіяти з іншими неактивними областями, утворюючи компартмент B; c — Геномні домени, що виявляють сильну взаємодію та є ізольовані від сусідніх регіонів, утворюють топологічно асоційовані домени (ТАДи). У ссавців CCCTC-binding factor (CTCF) на хроматині переважно виявляються на межах ТАД; d — Всередині кожного ТАД є домені петлі, опосередковані когезином, які полегшують фолдинг хроматину.
Методи фіксації конформації хромосом продемонстрували важливість просторової близькості регуляторних елементів генів. Наприклад, в тканинах, що експресують гени глобіну, контрольна ділянка локусу β-глобіну формує петлю разом з даними генами. При цьому петля відсутня в тканинах, де цей ген не експресується.[47] Ця технологія надалі допомогла генетичному та епігенетичному вивченню хромосом як у модельних організмів, так і у людини.
Фіксація конформації хромосом дозволила виявити крупний рівень їх організації — так звані ТАДи (топологічно асоційовані домени), що корелюють зі змінами в епігенетичних маркерах. Деякі ТАДи не виявляють транскрипційної активності, в той час як активність інших інгібується.[48] Велика кількість ТАДів виявлено у D. melanogaster, миші і людини.[49] Основну роль у визначенні взаємодій між ТАДами, енхансером і промоторами грають транскрипційні фактор CTCF і білковий комплекс когезин. Результати 3C експериментів говорять про важливість орієнтації («обличчям до обличчя») зв'язуючих мотивів CTCF і енхансер-промоторної петлі. Це необхідно для коректного позиціонування енхансера щодо своєї мішені.[50]
Захворювання людини
Існує ряд хвороб, що викликаються дефектами промотор-енхансерної взаємодії.[51] До них належить таке захворювання крові, як бета-таласемія, що виникає внаслідок делеції енхансерного елемента ЛКО.[52][53] Мутація в SBE2 енхансері, яка, в свою чергу, послаблює експресію гена SHH[54], призводить до розвитку голопрозенцефалії. При цьому порушується формування кінцевого мозку, розділеного на півкулі. Іншим прикладом пов'язаних зі зміною експресії SHH захворювань є полідактилія другого типу PPD2 (трифаланговий великий палець). Вона виникає через мутації регуляторного елемента ZRS, що впливає на посилену продукцію SHH.[55]
Розлад взаємодій між промотором і енхансером впливає не тільки на вади розвитку, але також може служити причиною онкологічних захворювань. Так, аденокарцинома легень може розвиватися внаслідок дуплікації енхансерного елемента гена MYC.[56] T-клітинний гострий лімфобластний лейкоз може бути викликаний появою нового енхансера через мутації в послідовності інтрона.[57]
Аналіз даних
Дані, що виходять в результаті різних 3C експериментів, характеризуються відмінними структурою і статистичними властивостями. Тому для обробки кожного типу експериментів існує свій програмний пакет[39].
Дані Hi-C часто використовуються в аналізі рівнів повногеномної організації хроматину. В результаті обробки існуючими алгоритмами виділяються ТАДи, протяжні лінійні ділянки геному, які пов'язані просторово.[6][48][58]
Hi-C та його похідні постійно удосконалюються. Fit-Hi-C[3] — це метод, заснований на принципі дискретного біннінга даних. Можливі його модифікації з урахуванням відстані взаємодії (уточнення початкового сплайна або spline-1) і уточненням нульовий моделі (spline-2). Результатом Fit-Hi-C є список попарних інтрахромосомних взаємодій з відповідними значеннями p-value і q-value.[59]
3D організація генома може бути встановлена з використанням методів спектрального розкладання матриці контактів. Кожен власний вектор відповідає набору локусів з загальними структурними властивостями (ці локуси необов'язково повинні бути розташовані лінійно один за одним).[60]
Одним з факторів похибок для технології 3C є часті неспецифічні взаємодії між локусами, що з'являються в результаті випадкової поведінки полімеру. Специфічність взаємодії між двома локусами обов'язково повинна бути підтверджена на відповідному рівні статистичної значущості[3].
Нормалізація карти контактів Hi-C
Візуалізація даних Hi-C за допомогою теплової карти і кругової діаграми.a.Hi-C взаємодії між усіма хромосомами з G401 клітин людської нирки, графік виконаний в програмі my5C. b.Теплова карта, що ілюструє структуру мишачої X-хромосоми, програма Hi-Browse. c.Візуалізація в формі теплової карти локусу 3 Mbp, виконана в Juicebox з використанням in-situ Hi-C даних, отриманих з клітинної лінії GM12878. d.Кругова діаграма X-хромосоми миші, згенерована Epigenome Browser
Існує два основних шляхи нормалізації первинних даних теплової карти контактів Hi-C. Перший — припущення стосовно рівної доступності, що означає однакові шанси для кожної позиції в хромосомі брати участь у взаємодії. ВІдповідно, істинний сигнал карти контактів Hi-C повинен являти собою врівноважену матрицю (врівноваженою матрицею вважається така, для якої суми значень по рядках і стовпцях рівні). Прикладом такого алгоритму є алгоритм Сінхорна-Кноппа, який призводить попередню карту контактів до виду врівноваженої матриці.[61]
Інший спосіб використовує припущення про те, що з кожною хромосомною позицією пов'язана деяка зміщеність. Значення карти контактів для кожної координати буде дорівнювати істинному сигналу для даної позиції, помноженому на зміщення для двох сусідніх позицій. До алгоритмів, що використовують модель зі зміщенням, належить алгоритм ітеративной корекції. У процесі його виконання зміщеність по рядках і стовпчикам ітеративно виключається з первинної карти контактів.[60]
Аналіз мотивів ДНК
ДНК-мотиви — це специфічні короткі послідовності ДНК, часто 8-20 нуклеотидів довжиною[62], які статистично завищені у наборі послідовностей із загальною біологічною функцією. В даний час регуляторні мотиви дальньої взаємодії хроматину не вивчені широко. У кількох дослідженнях було зосереджено увагу на з'ясуванні впливу мотивів ДНК у взаємодії промотор-енхансер.
Бейлі та ін. виявили, що мотив ZNF143 в промоторних областях забезпечує специфічність послідовності взаємодій промотор-енхансер.[63] Мутація мотиву ZNF143 зменшила частоту промотор-енхансерних взаємодій, що дозволяє припустити, що ZNF143 є новим фактором циклізації хроматину.
Для аналізу мотивів геномного масштабу у 2016 році Вонг та ін. повідомили про перелік 19 491 пар мотивів ДНК для клітинної лінії K562 щодо взаємодій промотор-енхансер.[64] Як результат, вони запропонували, що кратність зв'язування мотивів (кількість мотивів, сполучених із заданим мотивом) пов'язана з відстанню взаємодії та типом регуляторної області. У наступному році Вонг опублікував ще одну статтю, в якій повідомив про 18 879 пар мотивів у 6 людських клітинних ліній.[65] Новим внеском цієї роботи є MotifHyades — інструмент виявлення мотивів, який можна безпосередньо застосувати до парних послідовностей.
Аналіз ракових геномів
Техніки, засновані на методах 3C, можуть пролити світло на хромосомні перебудови в ракових геномах.[37] Більш того, вони здатні показувати зміни в просторовій близькості регуляторних елементів і їх генів-мішеней, дозволяючи поглибити розуміння структурно-функціональної організації генома в цілому.[66]