問題タブ [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Linkdatagen のエラー: 連結 (.) または文字列での初期化されていない値 $chr の使用
こんにちは、perl ベースのツールである linkdatagen を使用しようとしていました。vcf ファイル (SAMtools の mpileup を使用) と hapmap 注釈ファイル (付属) が必要です。指示に従いましたが、提供された perl スクリプトを使用すると、このエラーが発生します。私が使用したコードは次のとおりです。
Use of uninitiated value $chr in concatenation (.) or string at vcf2linkdatagentest.pl line 487, <IN> line 1
.... それは延々と続く.. 私は著者にメールを送りましたが、まだ連絡がありません。ここで誰か助けてくれませんか?私は何を間違っていますか?
Perl スクリプトは次のとおりです。 http://bioinf.wehi.edu.au/software/linkdatagen/vcf2linkdatagen.pl
HapMap ファイルは、以下の Web サイトからダウンロードできます。
http://bioinf.wehi.edu.au/software/linkdatagen/
本当にありがとう
r - ループおよび if else ステートメントを使用して条件付きで (bgzip、tabix) ファイルを処理する
私はいくつかの.vcf
ファイルを持っています。ディレクトリからこれらのファイルを選択し、それらを他の 2 つの形式に変換したいと考えています。
if
ここでandを使用するのは少し混乱してelse if
います。私はこのようにしたい:.bgz
ファイルのファイルがない場合、元のファイルを保持した[i]
ままファイル.vcf
に変換したい.bgz
。
既にファイルがあり、ファイルのファイル.bgz
がない場合は、ファイルから取得したオリジナルを保持してファイルをファイルに変換したいと考えて います。.bgz.tbi
[i]
.bgz
.bgz
.bgz.tbi
.bgz
.vcf
誰かがこのループを終わらせるのを手伝ってくれませんか? if 条件では機能しますが、そこから先に進む方法がわかりません。
r - Variant locations sometimes replaced by ID in subsetted large VCF file?
I have a large VCF file from which I want to extract certain columns and information from and have this matched to the variant location. I thought I had this working but for some variants instead of the corresponding variant location I am given the ID instead?
My code looks like this:
The result looks like this:
I would like the result to look like this:
Any ideas on what is going on here and how to fix it?
I would also be happy if there was a way to append the variant location using the CHROM and position fields but from my research data from these fields cannot be requested as they are essential fields used to create the GRanges of variant locations.
bash - スクリプトではなくプロンプトで機能するコマンド ライン
これが正確なコマンドです
シェルで直接実行すると、正常に動作します。
それをbashスクリプトに入れると失敗します
エラーメッセージはbcftools自体から来ています
[メイン] 認識できないコマンドです。
スクリプトは ascii でエンコードされています。
そのため、bcftools は、スクリプト内ではなくプロンプトから直接受け取った引数を受け入れます。プロンプトからのスペースとスクリプトからのスペースが同じように解釈されないようです
unix - UNIXの列でIDを一致させる方法は?
同様の質問が投稿されている可能性があることは承知していますが、検索したところ、質問の詳細が異なるようです (または、少なくとも私の場合に採用できる解決策を見つけることができませんでした)。
現在、 「messyFile」と「wantedID 」の 2 つのファイルがあります。「messyFile」のサイズは80,000,000 X 2,500ですが、「wantedID」のサイズは1 x 462です。"messyFile"の 253 行目には、2500 個の ID があります。ただし、必要なのは、ファイル"wantedID"内の 462 個の ID だけです。462 ID が 2500 ID のサブセットであると仮定すると、ファイル「messyFile」を処理して、462 ID に関する情報 (つまり、サイズ80,000,000 X 462 ) のみが含まれるようにするにはどうすればよいでしょうか。
大変お待たせいたしました!
ps: 混乱させてすみません。しかし、ええ、質問はこのようなものに要約できます。"File#1"の 1 行目には、10 個の ID があります。"File#2"の 1 行目には 3 つの ID があります ( "File#2"は 1 行のみで構成されています)。3 つの ID は、10 の ID のサブセットです。ここで、 「File#2」に記載されている 3 つの ID に関する情報のみが含まれるように、「File#1」を処理したいと考えています。
ps2: 「messyFile」は vcf ファイルですが、「wantedID」はテキスト ファイルにすることができます (小さいので「できる」と言ったので、ほぼすべてのタイプを作成できます)。
ps3: "File#1" は次のようになります。
「File#2」は次のようになります。
目的の出力は次のようになります。
bioinformatics - plinkを使用してvcfファイルをpedファイルに変換するには?
plink を使用して .vcf ファイルを .ped ファイルに変換しようとしています。オンラインでいくつかのマニュアルと投稿を読みましたが、vcf を ped に変換する方法について特に言及している人はないようです。
vcf を ped に変換するための plink の経験がある専門家がここにいることを願っています。知識を共有していただければ幸いです。さらに、それを行う別の方法 (非 plink) があれば、共有してください。
ありがとうございました!
python - RAM gzip で圧縮された csv ファイルよりも大きな値を集計するにはどうすればよいですか?
手始めに、私はバイオインフォマティクス、特にプログラミングは初めてですが、いわゆるVCFファイル(個人のみが含まれ、1つの塊= 1つの個人)を通過するスクリプトを作成し、検索文字列を使用して見つけます個体がホモ接合体であるかヘテロ接合体であるかにかかわらず、すべてのバリアント (系統) について。
このスクリプトは、少なくとも小さなサブセットでは機能しますが、すべてをメモリに保存することはわかっています。非常に大きな zip ファイル (ゲノム全体であっても) でこれを実行したいのですが、このスクリプトを行ごとにすべてを実行するスクリプトに変換する方法がわかりません (列全体をカウントしたいので、それを解決する方法を参照してください)。
したがって、出力は個人ごとに 5 つです (バリアントの総数、ホモ接合体の数、ヘテロ接合体の数、およびホモ接合体とヘテロ接合体の割合)。以下のコードを参照してください。
大規模なデータセットの調査を続けることができるように、どんな助けも大歓迎です。ありがとう:)
ちなみに、VCF ファイルは次のようになります。 0,13:13:33:347,33,0
これは、個々の ID 名を含むヘッダー行です (より複雑な ID タグを持つ合計 33 人の個人がいます。ここでは簡略化しています)。次に、同じ特定のパターンを持つこれらの情報行が多数あります。私はスラッシュの最初の部分だけに興味があるので、通常の表現です。