“vcf-variant-call-format”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

109 参照

perl - Linkdatagen のエラー: 連結 (.) または文字列での初期化されていない値 $chr の使用

こんにちは、perl ベースのツールである linkdatagen を使用しようとしていました。vcf ファイル (SAMtools の mpileup を使用) と hapmap 注釈ファイル (付属) が必要です。指示に従いましたが、提供された perl スクリプトを使用すると、このエラーが発生します。私が使用したコードは次のとおりです。

Use of uninitiated value $chr in concatenation (.) or string at vcf2linkdatagentest.pl line 487, <IN> line 1.... それは延々と続く.. 私は著者にメールを送りましたが、まだ連絡がありません。ここで誰か助けてくれませんか？私は何を間違っていますか？

Perl スクリプトは次のとおりです。 http://bioinf.wehi.edu.au/software/linkdatagen/vcf2linkdatagen.pl

HapMap ファイルは、以下の Web サイトからダウンロードできます。
http://bioinf.wehi.edu.au/software/linkdatagen/

本当にありがとう

2016-03-14T12:31:51.707

0 投票する

1 に答える

444 参照

r - ループおよび if else ステートメントを使用して条件付きで (bgzip、tabix) ファイルを処理する

私はいくつかの.vcfファイルを持っています。ディレクトリからこれらのファイルを選択し、それらを他の 2 つの形式に変換したいと考えています。

ifここでandを使用するのは少し混乱してelse ifいます。私はこのようにしたい：.bgzファイルのファイルがない場合、元のファイルを保持した[i]ままファイル.vcfに変換したい.bgz。

既にファイルがあり、ファイルのファイル.bgzがない場合は、ファイルから取得したオリジナルを保持してファイルをファイルに変換したいと考えています。.bgz.tbi[i].bgz.bgz.bgz.tbi.bgz.vcf

誰かがこのループを終わらせるのを手伝ってくれませんか? if 条件では機能しますが、そこから先に進む方法がわかりません。

r if-statement bioinformatics vcf-variant-call-format

2016-04-21T11:02:00.937

0 投票する

0 に答える

55 参照

r - Variant locations sometimes replaced by ID in subsetted large VCF file?

I have a large VCF file from which I want to extract certain columns and information from and have this matched to the variant location. I thought I had this working but for some variants instead of the corresponding variant location I am given the ID instead?

My code looks like this:

The result looks like this:

I would like the result to look like this:

Any ideas on what is going on here and how to fix it?

I would also be happy if there was a way to append the variant location using the CHROM and position fields but from my research data from these fields cannot be requested as they are essential fields used to create the GRanges of variant locations.

r bioinformatics vcf-variant-call-format

2016-05-27T05:16:46.270

0 投票する

1 に答える

387 参照

bash - スクリプトではなくプロンプトで機能するコマンドライン

これが正確なコマンドです

シェルで直接実行すると、正常に動作します。
それをbashスクリプトに入れると失敗します

エラーメッセージはbcftools自体から来ています

[メイン] 認識できないコマンドです。

スクリプトは ascii でエンコードされています。

そのため、bcftools は、スクリプト内ではなくプロンプトから直接受け取った引数を受け入れます。プロンプトからのスペースとスクリプトからのスペースが同じように解釈されないようです

bash shell bioinformatics vcf-variant-call-format bcftools

2016-07-19T16:12:28.567

0 投票する

2 に答える

89 参照

unix - UNIXの列でIDを一致させる方法は?

同様の質問が投稿されている可能性があることは承知していますが、検索したところ、質問の詳細が異なるようです (または、少なくとも私の場合に採用できる解決策を見つけることができませんでした)。

現在、「messyFile」と「wantedID 」の 2 つのファイルがあります。「messyFile」のサイズは80,000,000 X 2,500ですが、「wantedID」のサイズは1 x 462です。"messyFile"の 253 行目には、2500 個の ID があります。ただし、必要なのは、ファイル"wantedID"内の 462 個の ID だけです。462 ID が 2500 ID のサブセットであると仮定すると、ファイル「messyFile」を処理して、462 ID に関する情報 (つまり、サイズ80,000,000 X 462 ) のみが含まれるようにするにはどうすればよいでしょうか。

大変お待たせいたしました！

ps: 混乱させてすみません。しかし、ええ、質問はこのようなものに要約できます。"File#1"の 1 行目には、10 個の ID があります。"File#2"の 1 行目には 3 つの ID があります ( "File#2"は 1 行のみで構成されています)。3 つの ID は、10 の ID のサブセットです。ここで、「File#2」に記載されている 3 つの ID に関する情報のみが含まれるように、「File#1」を処理したいと考えています。

ps2: 「messyFile」は vcf ファイルですが、「wantedID」はテキストファイルにすることができます (小さいので「できる」と言ったので、ほぼすべてのタイプを作成できます)。

ps3: "File#1" は次のようになります。

「File#2」は次のようになります。

目的の出力は次のようになります。

unix bioinformatics vcf-variant-call-format bcftools

2016-08-29T21:21:02.487

0 投票する

2 に答える

12586 参照

bioinformatics - plinkを使用してvcfファイルをpedファイルに変換するには?

plink を使用して .vcf ファイルを .ped ファイルに変換しようとしています。オンラインでいくつかのマニュアルと投稿を読みましたが、vcf を ped に変換する方法について特に言及している人はないようです。

vcf を ped に変換するための plink の経験がある専門家がここにいることを願っています。知識を共有していただければ幸いです。さらに、それを行う別の方法 (非 plink) があれば、共有してください。

ありがとうございました！

bioinformatics vcftools vcf-variant-call-format

2016-09-23T23:41:51.277

0 投票する

2 に答える

514 参照

python - RAM gzip で圧縮された csv ファイルよりも大きな値を集計するにはどうすればよいですか?

手始めに、私はバイオインフォマティクス、特にプログラミングは初めてですが、いわゆるVCFファイル（個人のみが含まれ、1つの塊= 1つの個人）を通過するスクリプトを作成し、検索文字列を使用して見つけます個体がホモ接合体であるかヘテロ接合体であるかにかかわらず、すべてのバリアント (系統) について。

このスクリプトは、少なくとも小さなサブセットでは機能しますが、すべてをメモリに保存することはわかっています。非常に大きな zip ファイル (ゲノム全体であっても) でこれを実行したいのですが、このスクリプトを行ごとにすべてを実行するスクリプトに変換する方法がわかりません (列全体をカウントしたいので、それを解決する方法を参照してください）。

したがって、出力は個人ごとに 5 つです (バリアントの総数、ホモ接合体の数、ヘテロ接合体の数、およびホモ接合体とヘテロ接合体の割合)。以下のコードを参照してください。

大規模なデータセットの調査を続けることができるように、どんな助けも大歓迎です。ありがとう:)

ちなみに、VCF ファイルは次のようになります。 0,13:13:33:347,33,0

これは、個々の ID 名を含むヘッダー行です (より複雑な ID タグを持つ合計 33 人の個人がいます。ここでは簡略化しています)。次に、同じ特定のパターンを持つこれらの情報行が多数あります。私はスラッシュの最初の部分だけに興味があるので、通常の表現です。

python csv gzip bioinformatics vcf-variant-call-format

2016-11-10T13:15:27.537

問題タブ [vcf-variant-call-format]

Reference