問題タブ [genome]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - 組成研究のためにゲノムをスクリーニングする方法は?
私は約 2600 以上のゲノムを扱っており、さまざまなグループのゲノム、遺伝子、および遺伝子間の特徴を研究したいと考えています。代表者が非常に少ない分類群の場合、問題はありません。複数のゲノムを持つ分類学的グループの場合、各分類学的グループからほんの数人の代表者を得るために、どのような基準で同様のゲノムを削除する必要がありますか? 長さ、GC%、またはその他の機能を使用してゲノムを削除する必要があります。たとえば、2 つのゲノムの GC% 変動が 1% 未満の場合、それを削除する必要があります。そんな感じ。受け入れられる方法を提案し、その理由も親切に説明してください。
このような場合、類似のゲノムをスクリーニングして削除するにはどうすればよいですか?
r - R ゲノム アラインメント ビューアー
現在、genbankのpttファイルを読み込んで、genoplotRを使用してRでゲノムをプロットするために使用しました
また、対応するソートされたbamファイルを読み込み、rbamtoolsを使用してカバレッジプロットを作成しました
これらの 2 つの図を 1 つのグラフに重ねて、R で基本的なゲノム アラインメント ビューアーを作成したいと思います。
どんな助けでも大歓迎です!
ありがとう
r - SNP ID をゲノム座標にマッピングする
私はいくつかのSNP ID (つまり、rs16828074、rs17232800 など) を持っています。UCSCゲノム Web サイトから Hg19 ゲノムでそれらの座標を取得したいと考えています。
R
この目標を達成するために使用することをお勧めします。どうやってするか?
search - ゲノム内の遺伝子を検索するための blat ツールの使用方法は?
私はblatツールで作業する必要があります。ゲノム内のいくつかの遺伝子の開始位置と終了位置を見つける必要があります。以下のリンクからツールをダウンロードしました: http://genome.ucsc.edu/FAQ/FAQblat.html、blat ファイル + blatSrc.zip ファイル。実行方法がわかりません。ユーザーガイドは以下のリンクにあります: http://genome.ucsc.edu/goldenPath/help/blatSpec.html
結果を得るためにどのコマンドを書かなければならないか教えてください。
ありがとう。
r - Rのデータセットから指定された多数の行を減算します
遺伝子 A と B の 2 つの非常に大きなリストがあります。A には GeneID と p 値の 2 つの列があり、B には GeneID の 1 つの列しかありません。B には約 100,000 の遺伝子があり、これらは A の遺伝子のサブセットです (ここでは約 700,000 の遺伝子)。
B の遺伝子が A に表示されることはもう望んでいません。p 値を A に保持したまま、それらを取り除くにはどうすればよいですか? これまでに3つの異なる方法を試しました:
p 値の列を削除したので、両方のリストに Entrez Gene ID しかありません。次に、次のコードを使用しました:
new<-A[setdiff(rownames(A),rownames(B)),]
が、予想とはまったく異なる遺伝子セットを取得しました。ABではなく、AとBの遺伝子がランダムに混ざったように見えた私も試しました:
new<-A[!apply(A,1,FUN=function(y){any(apply(B,1,FUN=function(x){all(x==y)}))}),]
- 最後に、EntrezGeneID でマージしようとしましたが、それもだめでした。
私はこれによって破壊されているので、助けていただければ幸いです。
r - VariantAnnotation パッケージを使用して R で Variant Call Format (VCF) ファイルをディスクに保存する方法
私はこれをウェブで検索しましたが、あまり運がありませんでした。多かれ少なかれ、常にVariantAnnotation Packageの例に到達します。この例は私のコンピューターで正常に機能するため、作成した VCF が機能しない理由がわかりません。
問題:選択した遺伝子の SNP の数と位置を特定したい。いくつかのマウス系統のすべての染色体上のすべての SNP に関する情報を含む大きな VCF ファイル (5GB 以上) があります。全ゲノム スケールで何かをしようとすると、明らかにコンピューターがフリーズするので、最初に染色体 1 上の目的の遺伝子のゲノム位置を特定しました。次に、VariantAnnotation Package を使用して、目的の遺伝子に関連するデータのみをVCF ファイル:
上記のコードは、ひずみを引数として取る、私が書いた関数から取り出したものです。gnrng は、関心のある遺伝子のゲノム位置を含む GRanges オブジェクトを参照します。
これは正常に機能し、vcf (dim: 21783 1) を取得しますが、保存しようとすると機能しません
最初にパッケージの例を実行してから、VCF ファイルを置き換えて、並行して試してみました。
これは問題なく動作しますが、vcfをin1に置き換えるだけで同じエラーが発生します。
私は自分自身を明確にしたことを願っています...そして、どんな助けも大歓迎です!! 前もって感謝します!
bioinformatics - ペアワイズ シーケンス アラインメントを行う際のシーケンス ファイルの一般的なサイズはどれくらいですか?
ペアワイズ シーケンス アラインメントを行う際のシーケンス ファイルの一般的なサイズはどれくらいですか? 生物のゲノム全体を整列させることはできますか?
python - あるファイルの座標を使用し、別のファイルの一致する座標から値を追加する Python スクリプト
タブ区切りのベッドファイルに、元のゲノム座標 (クロム、開始、終了) のセットがあります。また、元のゲノム座標の一部と、これらの各座標に関連付けられた数値を含む、タブで区切られた追加のベッド ファイルもあります。これらの座標は、毎回異なる数値でベッド ファイルに複数回表示される場合があります。元のゲノム座標のそれぞれと、その特定の座標に関連付けられていることが判明したすべての値の合計数を含む最終ベッド ファイルが必要です。私が扱っているファイルの例を以下に示します。
元のファイル:
他のベッドファイル:
必要な出力ファイル:
これを行うには Python スクリプトを作成する必要がありますが、それを行う最善の方法が何であるかはよくわかりません。