FastQC
FastQC je program nebo nástroj, který poskytuje kontrolu kvality sekvencí DNA na různých úrovních. Základní informacePoskytuje analýzy velkého množství sekvanačních dat získaných hlavně sekvenováním metodou “Next-Generation Sequencing”. Nástroje, které přináší QC report o kvalitě, většinou odhalí problémy, které vznikly sekvenátorem, ale report kvality, který přináší FastQC odhalí i problémy vzniklé již v počátcích přípravou laboratorních knihoven.[1] Přináší rychlou kontrolu kvality sekvenčních dat od základní statistiky až po další analýzy. Po analyzování výsledky uživatel obdrží ve formátu HTML, kde v levém panelu podle barev okamžitě rozpozná úroveň výsledku analýzy potažmo kvality (výsledné moduly jsou označeny kruhy v barvách semaforu od zelené po červenou). Barevné rozdělení pro rychlou kontrolu – zelená fajfka – normální nebo dobrá kvalita, oranžový trojúhelník – mírně abnormální kontrolovaná kvalita a červený křížek – velmi neobvyklé. Více o konkrétních modulech/analýzách naleznete níže. PoužitíLze s programem pracovat v interaktivním a neinteraktivním rozhraní. Interaktivní rozhraní je ve formě aplikace, to slouží pro rychlou analýzu několika souborů. Neinteraktivní, které uživatel ovládá přes příkazovou řádku terminálu, dokáže provést analýzu většímu počtu souborů. Alternativní možností pro analýzu opravdu velkého počtu souborů je nástroj MultiQC.[2] Podporované formáty souborůNástroj FastQC dokáže analyzovat sekvence ve formátech souborů:[3]
Funkce – modulyNíže stručný popis jednotlivých modulů.[4] Basic statisticZákladní statistika popisuje ve shrnující tabulce základní údaje – typ souboru, název souboru, kódování – sekvenování (najít), kompletní počet sekvencí, zachycené sekvence s nízkou kvalitou, délka sekvencí, procentuální podíl GC. Per base sequence qualityVýsledný graf je rozdělen na tři bloky dle barev odrážejících kvalitu. Per tile sequence qualityV ideálním případě by měl graf být čistě modrá obrazovka. V případě, že se objeví modrá obrazovka s několika barevnými plochami v barevné škále od teplých po studené barvy, značí, že uživatel má v datech sekvenovaných Illuminou ještě zůstalé identifikátory sekvencí z laboratorních knihoven. Per sequence quality scoresUkazuje zda některé skupiny sekvencí z celku mají přirozeně nízké hodnoty kvality. Per base sequence contentGraf ukazuje proporci všech čtyř bází v souboru. U náhodných sekvencí lze očekávat rozložení rovnoměrné, a proto by v grafu měly všechny čtyři čáry (každá pro jednu ze čtyřech bází) jít rovnoměrně a vodorovně. Per base GC contentNeměl by být vychýlen, a ta ve výsledném grafu by měla jít čára vodorovně. Per sequence GC contentMěří obsah GC v celé délce každé sekvence v souboru a porovnává ho s grafem modelového obsahu GC.V grafu by měl výsledek pro soubor korespondovat s křivkou normálního rozložení dle modelu. Per base N contentV případě, že by byl sekvenátor neschopný přečíst bázi, v souboru by se pro nepřečtené objevovaly nahrazené báze písmenem N. V grafu by měla být křivka kopírující osu x, tudiž nulový obsah báze N. Sequence length distributionTento modul generuje graf, který ukazuje distribuci délky fragmentů v sekvencích. Ve většině případů sekvenátor generuje fragmenty stejné délky, a tak v grafu je křivka s jedním vrcholem. Sequence duplication levelTento modul ukazuje stupeň úrovně duplikace některých sekvencí v souboru. Overrepresented sequencesTento modul ukazuje sekvence, které se vyskytují nadměrně v souboru, od hladiny vyšší než 0,1 %. Buď to naznačuje, že jsou sekvence velmi signifikantní nebo naopak to značí kontaminaci vzorků. Výsledek není zobrazen grafem – buď je ve formě jedné informační věty, že soubor neobsahuje nadměrně se vyskytující sekvence, nebo ty nadměrně se vyskytující vypíše. Kmer content – Adapter contentKontroluje, zda nezůstaly v sekvencích nějaké sekvenační adaptory použité ke značení při sekvenaci. OdkazyReference
Externí odkazy |
Portal di Ensiklopedia Dunia