0

vcf ファイルから、集団が読み込まれた順序で、各集団の個体数を取得したいと考えています。私のファイルのフィールドは次のようになります

##fileformat=VCFv4.2                                                
##fileDate=20180425                                             
##source="Stacks v1.45"                                             
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">                                              
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">                                               
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">                                                
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">                                             
##FORMAT=<ID=AD,Number=1,Type=Integer,Description="Allele Depth">                                               
##FORMAT=<ID=GL,Number=.,Type=Float,Description="Genotype Likelihood">                                              
##INFO=<ID=locori,Number=1,Type=Character,Description="Orientation the 
corresponding Stacks locus aligns in">                                              
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT   
CHALIFOUR_2003_ChHis-1  CHALIFOUR_2003_ChHis-13 CHALIFOUR_2003_ChHis-14  
CHALIFOUR_2003_ChHis-15
un  1027    13_65   C   T   .   PASS    NS=69;AF=0.188;locori=p GT:DP:AD     
0/1:16:9,7  0/0:39:39,0 0/0:17:17,0 0/0:39:39,0

ここでサンプルファイルを参照vcf ファイル

たとえば、リンク先のファイルには、Chalifour 2003 と Chalifour 2015 という 2 つの集団があります。個人には、これを識別する接頭辞「CHALIFOUR_2003...」が付いています。

次のようなものを抽出できるようにしたいと思います: Chalifour_2003* 35 Chalifour 2015* 45

「35」と「45」は、各集団の個体数を示しています (ただし、これらの数は構成されています)。出力の形式はまったく気にしません。必要なのは数字だけです。人口がファイルに読み込まれる順序でリストされていることが重要です。

この情報を取得するための手段についての提案をいただければ幸いです。

4

1 に答える 1