Variant Call Format
El Variant Call Format (VCF) és un format de fitxer de text que s'utilitza en bioinformàtica per a emmagatzemar informació sobre les variacions en la seqüència dels gens. El format s'ha dissenyat sota l'aixopluc de grans projectes de seqüenciació de l'ADN i genotipatge, com ara el Projecte 1000 Genomes. Es va veure la necessitat d'un nou format, perquè altres formats ja existents per emmagatzemar dades genètiques, com ara el General Feature Format, en utilitzar-se per a diferents genomes inclourien masses dades redundants. Amb el VCF només es desarien les diferents variacions respecte a un genoma de referència. A part, el Projecte 1000 Genomes ha desenvolupat les seves pròpies especificacions per a variacions estructurals, com ara duplicats, difícils d'acomodar en l'esquema existent.[1][2][3] També existeixen un grup d'eines per editar i manipular els fitxers VCF.[4] Exemple##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29. NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,. 2 7330. T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3 2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 2 130237. T . 47. NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2 2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3 Enllaços externs
Referències
|
Portal di Ensiklopedia Dunia