1

vcf ファイルを ped 形式に変換するとき (vcftools または 1000G の vcf から ped コンバーターを使用)、dbSNP ID を持たないバリアントの ID がそのバリ​​アントの塩基対の位置を取得するという問題に遭遇します。 IDとして。いくつかのバリアントの例:

1   rs35819278  0   23333187
1   23348003    0   23348003
1   23381893    0   23381893
1   rs18325622  0   23402111
1   rs23333532  0   23408301
1   rs55531117  0   23810772
1   23910834    0   23910834

ただし、dbSNP ID のないバリアントでは、"chr:basepairposition" の形式を取得したいと考えています。したがって、上記の例は次のようになります。

1   rs35819278  0   23333187
1   chr1:23348003   0   23348003
1   chr1:23381893   0   23381893
1   rs18325622  0   23402111
1   rs23333532  0   23408301
1   rs55531117  0   23810772
1   chr1:23910834   0   23910834

dbSNP ID のないバリアントのこの 2 番目の列を変更するために、どのコマンドまたはどのスクリプトを使用する必要があるかを誰かが説明してくれると助かります。

ありがとう!

4

2 に答える 2

1

これは plink2 で実行できます。それに応じて --set-missing-var-ids オプション ( https://www.cog-genomics.org/plink2/data#set_missing_var_ids )を使用する必要があります。

plink --vcf [filename] \
    --keep-allele-order \
    --vcf-idspace-to _ \
    --double-id \
    --allow-extra-chr 0 \
    --split-x b37 no-fail \
    --set-missing-var-ids chr@:# \
    --make-bed \
    --out [prefix]

ただし、この方法を使用して複数のバリアントに同じ ID を割り当てることができ、plink2 は同じ ID のバリアントを許容しないことに注意してください。VCF ファイルを plink に変換する方法の詳細については、次のリソースに詳しい洞察があります

于 2015-04-06T21:36:35.757 に答える