問題タブ [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - bam ファイルから読み取り位置を抽出する
複数の SNP を含む vcf ファイルがあり、これらの SNP が、SNP を取得した bam ファイルの読み取り全体に均等に分散されているかどうかを確認したいと考えています。具体的には、読み取り位置に SNP の数をプロットしたいと考えています。これを行うためのツールがあるかどうか、または自分でスクリプトを作成する必要があるかどうか疑問に思っています。もしそうなら、それを行うことができる R のパッケージはありますか (私は R に慣れていますが、perl の経験はあまりありません)。
r - R 文字列の一部を抽出
文字列の一部の抽出について質問があります。たとえば、次のような文字列があります。
GN=
と の間のすべてを抽出する必要があり;
ますNOC2L
。
それは可能ですか?
注:これはINFO
列形式のVCF ファイル形式です。GN は Gene Name ですので、INFO
列から遺伝子名を抽出したいと思います。
bioinformatics - PLink を使用して重複した SNP を削除するにはどうすればよいですか?
私はPLINKと協力してゲノムワイドなデータを解析しています。
重複した SNP を削除する方法を知っている人はいますか?
perl - Ubuntu および tabix で実行する Perl ファイルの準備
Ubunto や Perl については知りませんが、プログラムをインストールして実行する必要があります。これは私が見ているものです: http://vcftools.sourceforge.net/docs.html
インストールセクションでは、次のように述べています。
vcftools 実行可能ファイルをビルドするには、vcftools フォルダーに「make」と入力します。
Perl スクリプトでは、VCF ファイルが bgzip で圧縮され、tabix でインデックスが作成されている必要があります (どちらのツールも tabix パッケージに含まれており、ここからダウンロードできます)。どちらのツールも、PATH 環境変数にリストされているディレクトリーにある必要があります。Perl スクリプトを実行するには、PERL5LIB 環境変数を設定して、Vcf.pm モジュールを含める必要があります。
export PERL5LIB=/path/to/your/installation/perl
わかりました、VCFtoolsフォルダーを抽出してubuntuのホームフォルダーにコピーしました。次に、「make」と言ってエラーが発生したので、そのtabidxツールをダウンロードしましたが、この時点から、どうすればよいかわかりません。わかりましたtabidxをダウンロードしますが、次に何をどのように行うべきですか?
ありがとう。
bioinformatics - バリエーションとヒト参照に基づいて DNA 配列を構築する
1000 ゲノム プロジェクトは、人間の参照 DNA 配列に対する数千人の DNA 配列の「バリエーション」に関する情報を提供します。バリエーションはVCFファイル
形式で保存されます。基本的に、そのプロジェクトの各人物について、VCF ファイルから DNA 変異情報を取得できます。たとえば、変異のタイプ (挿入/削除や SNP など) や参照に対する変異の位置などです。参照は FASTA 形式です。VCF ファイルからの 1 人のバリエーション情報と FASTA ファイル内の人間のリファレンスを組み合わせて、その人物の DNA 配列を構築したいと考えています。
私の質問は、タスクをうまく実行できるツールがすでに存在するか、それとも自分でスクリプトを作成する必要があるかということです。
shell - 2 つのファイルを比較した後、特定の列のすべての行を抽出する
何千行もある 2 つのテキスト ファイルがあります。ファイル A には列 (ID) が 1 つしかありません
ファイル B は次のようになります。
これは私が望む出力です:
つまり、ファイル A で指定された ID と一致する ID を持つ行のみをファイル B から抽出したいのですが、どうすればこれを達成できますか? ありがとう
bioinformatics - vcf から ped 形式へ: 非 dbSNP の再定義
vcf ファイルを ped 形式に変換するとき (vcftools または 1000G の vcf から ped コンバーターを使用)、dbSNP ID を持たないバリアントの ID がそのバリアントの塩基対の位置を取得するという問題に遭遇します。 IDとして。いくつかのバリアントの例:
ただし、dbSNP ID のないバリアントでは、"chr:basepairposition" の形式を取得したいと考えています。したがって、上記の例は次のようになります。
dbSNP ID のないバリアントのこの 2 番目の列を変更するために、どのコマンドまたはどのスクリプトを使用する必要があるかを誰かが説明してくれると助かります。
ありがとう!
r - VCF ファイルからサンプル データを抽出する
いくつかのサンプルのデータを含む大きな Variant Call 形式 (VCF) ファイル (> 4GB) があります。
Google、Stackoverflow を閲覧し、R で VariantAnnotation パッケージを試して、特定のサンプルのデータのみを何らかの方法で抽出しましたが、R でそれを行う方法に関する情報は見つかりませんでした。
誰かがそのようなことを試しましたか、またはこれを可能にする別のパッケージを知っていますか?
r - VariantAnnotation パッケージを使用して R で Variant Call Format (VCF) ファイルをディスクに保存する方法
私はこれをウェブで検索しましたが、あまり運がありませんでした。多かれ少なかれ、常にVariantAnnotation Packageの例に到達します。この例は私のコンピューターで正常に機能するため、作成した VCF が機能しない理由がわかりません。
問題:選択した遺伝子の SNP の数と位置を特定したい。いくつかのマウス系統のすべての染色体上のすべての SNP に関する情報を含む大きな VCF ファイル (5GB 以上) があります。全ゲノム スケールで何かをしようとすると、明らかにコンピューターがフリーズするので、最初に染色体 1 上の目的の遺伝子のゲノム位置を特定しました。次に、VariantAnnotation Package を使用して、目的の遺伝子に関連するデータのみをVCF ファイル:
上記のコードは、ひずみを引数として取る、私が書いた関数から取り出したものです。gnrng は、関心のある遺伝子のゲノム位置を含む GRanges オブジェクトを参照します。
これは正常に機能し、vcf (dim: 21783 1) を取得しますが、保存しようとすると機能しません
最初にパッケージの例を実行してから、VCF ファイルを置き換えて、並行して試してみました。
これは問題なく動作しますが、vcfをin1に置き換えるだけで同じエラーが発生します。
私は自分自身を明確にしたことを願っています...そして、どんな助けも大歓迎です!! 前もって感謝します!