vcf ファイルから、集団が読み込まれた順序で、各集団の個体数を取得したいと考えています。私のファイルのフィールドは次のようになります
##fileformat=VCFv4.2
##fileDate=20180425
##source="Stacks v1.45"
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=AD,Number=1,Type=Integer,Description="Allele Depth">
##FORMAT=<ID=GL,Number=.,Type=Float,Description="Genotype Likelihood">
##INFO=<ID=locori,Number=1,Type=Character,Description="Orientation the
corresponding Stacks locus aligns in">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT
CHALIFOUR_2003_ChHis-1 CHALIFOUR_2003_ChHis-13 CHALIFOUR_2003_ChHis-14
CHALIFOUR_2003_ChHis-15
un 1027 13_65 C T . PASS NS=69;AF=0.188;locori=p GT:DP:AD
0/1:16:9,7 0/0:39:39,0 0/0:17:17,0 0/0:39:39,0
ここでサンプルファイルを参照vcf ファイル
たとえば、リンク先のファイルには、Chalifour 2003 と Chalifour 2015 という 2 つの集団があります。個人には、これを識別する接頭辞「CHALIFOUR_2003...」が付いています。
次のようなものを抽出できるようにしたいと思います: Chalifour_2003* 35 Chalifour 2015* 45
「35」と「45」は、各集団の個体数を示しています (ただし、これらの数は構成されています)。出力の形式はまったく気にしません。必要なのは数字だけです。人口がファイルに読み込まれる順序でリストされていることが重要です。
この情報を取得するための手段についての提案をいただければ幸いです。