問題タブ [genetics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
storage - ヒトゲノムを保存するには、どれくらいのストレージが必要ですか?
単一のヒトゲノムを保存するために必要なバイト単位のストレージ量 (MB、GB、TB など) を探しています。ウィキペディアで DNA、染色体、塩基対、遺伝子に関する記事をいくつか読み、大まかな推測をしましたが、何かを開示する前に、他の人がこの問題にどのようにアプローチするかを知りたいと思います。
別の質問として、人間の DNA にはいくつの原子があるかという質問がありますが、それはこのサイトの話題から外れます。
これは概算であることを理解しているので、人間の DNA を保存できる最小値を探しています。
r - R を使用してデータを解析しながら、affy chip からヒト miRNA を選択するにはどうすればよいですか?
私は R を初めて使用し、3 つのグループのデータセットから miRNA の発現を分析したいと考えています。誰でも私を助けることができますか?
この場合、他のmiRNA(affyチップ上)をトップ発現遺伝子として取得しました。ここで、ヒト miRNA のみを選択したいと考えています。私を助けてください
前もって感謝します
r - パッケージ「GeneR」は利用できません
GeneR ライブラリ (http://www.bioconductor.org/packages/release/bioc/html/GeneR.html) をインストールしようとしています: win7 と最新の R 2.14.2 を使用しています。
インストール中のエラー:
このライブラリをインストールするには?
python - 染色体情報を含む基本ファイルを作成するPythonスクリプト
遺伝子解析用の.bedファイルを作成しようとしています。私はPythonの初心者です。私が作成したいファイルは、タブで区切られた3列で、最初の列は常に同じ(染色体番号)で、サイズ200の2列目と3列目のウィンドウはゼロから始まり染色体の終わりで終わる必要があります。例えば:
私は染色体のサイズを持っているので、現時点では、列2 <(クロムのサイズ)の印刷行で'と言いたいと思っています。私はスクリプトのスケルトンを持っていますが、経験が不足しているため、うまく機能していません。これが私がこれまでに持っているものです:
誰かがこの単純なスクリプトを私が説明したように修正できるか、または本当に感謝されるより良い解決策を書くことができれば。20番染色体とchrXのすべてのファイルを出力できるスクリプトを作成することを検討しましたが、染色体のサイズを指定する必要があるため、各ファイルを個別に実行する必要があると思います。
前もって感謝します!
r - Rの範囲でマージ-ループの適用
私はここに質問を投稿しました:2番目のファイルの範囲に入る1つのファイルの数に基づいて2つのファイルをマージすることについてのRの一致した範囲のマージ。これまでのところ、これを実現するためにコードをつなぎ合わせることに成功していません。私が抱えている問題は、使用しているコードがファイルを1行ずつ比較していることです。これは問題です。1。)1つのファイルが他のファイルよりもはるかに長い、2。)同じ行の範囲だけでなく、長いファイルのすべての範囲ペアをスキャンするために、短いファイルの行が必要です。 。
私は元の質問に投稿された関数を使用しており、最初のファイルのすべての行を2番目のファイルの各行と比較するより一般的なループに適用する方法があるはずですが、私はしていません。 tはまだそれを理解しました。何か提案があれば、よろしくお願いします。
****編集済み。
データの性質は次のとおりです。ほとんどの範囲は一意ですが、各範囲は必ずしも一意ではありません。それらも同じサイズではなく、完全に他の中に収まるものもあります。findInterval
したがって、「降順ではない」順序に分類するために範囲を並べ替えることができないため、エラーが発生します。
各データフレームの最初の6行は次のとおりです。
したがって、ご覧のとおり、5行目の範囲は4行目の範囲内にあり、最初のファイルの2つのSNPは4行目の範囲内にありますが、2行目の範囲内にあるのは1つだけです。
SNPを含む最初のファイルには、約400行しかありません。ただし、範囲を含む2番目のファイルには約20Kがあります。出力として生成したいのは、最初のファイル(SNP)の行と、2番目のファイルのBP範囲に含まれるBPを含むデータフレームです。SNPが2つの範囲に分類される場合、2回表示されます。
r - R での遺伝データのシミュレーション
特定の SNP と定量的表現型の間の遺伝的関連をシミュレートするために利用できる最良の方法または最良のパッケージを探しています。シミュレートされたデータは、原因となるバリアントを知っていることを除いて、私の実際のデータに最も似ています。Rで見たパッケージはどれも血統データや、合体などの進化要因が特定された個体群データに特化しているようですが、個体群遺伝学の経験はなく、ヨーロッパの単純なケースをシミュレートしたいだけです。私の実際のデータと同様の特性を持つ集団 (つまり、形質の正規分布と遺伝子型の相加効果、類似の対立遺伝子頻度など) たとえば、私の遺伝子データが X で、量的変数が Y の場合:
対立遺伝子頻度の範囲、表現型の範囲を指定し、遺伝子型に関連する特定のバリアントを指定する必要がある Plink の関数に似たものを R で探しています (これは重要です。異なるデータセットでこれらの関連付けを繰り返し、因果バリアントは同じです)
誰か助けてくれませんか?
r - 行の条件付き挿入
私はユニークなデータセットを持っており、その一部は以下を使用して再現できます。
欠測データエントリの保持スポットを必要とするプログラムで使用するためにフォーマットされています。この場合、欠落しているエントリは、Sort Order
列の数値スキップによって示されます。列が6-7-8-9下降すると、エントリは完了します。新しいエントリは6で始まります。
データファイルを読み取り、欠落しているエントリごとにゼロの行を挿入して、ファイルが次のようになるようにする方法が必要です。
最終的に、最後の2列はデータファイルから削除さForSortSNP
れSortOrder
ますが、便宜上、これらは現在含まれています。どんな提案も大いに感謝されます。
python - Python での集団遺伝学モデリング
そのため、単一の遺伝子を持つ理論上の生物のランダムな同等に適合する対立遺伝子の世代を生成するプログラムを作成する必要があります。
変異した対立遺伝子 2 を 1 つ含むリストから始めて、次の世代の対立遺伝子を 3 つ選択し、それらを次の世代のリストに追加します。
問題は、選択されなかった対立遺伝子が除去されないことです。選択されていない対立遺伝子がリストから削除されるように、このプログラムをどのように適応させることができますか?
ありがとう
- 編集
プログラムの出力は次のようになります
[1,1,1,2,1,2,1]
これは、2 つの異なる対立遺伝子を持つ 7 つの生物の集団を表します。選択した 3 つの対立遺伝子の二重対立遺伝子があるため、これは第 2 世代を表します。これは、3 つの選択された対立遺伝子の 2 つの子孫をシミュレートしました。しかし、選択されなかった対立遺伝子 (この場合は 1) は、この世代には存在しないはずです。だから私が知りたいのは、ここのリストからそれを削除する方法です
注意してください。少し冗長で申し訳ありません
r - R WGCNA Cytoscape ハブ遺伝子
次の問題があります
WGCNA - http://labs.genetics.ucla.edu/horvath/htdocs/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
セクション 1.6、外部ソフトウェアへのネットワークのエクスポート (Cytoscape) に取り組んでいます。
現在、一連の遺伝子に対して WGCNA を実行しようとしていますが、各モジュールの上位 x ハブ遺伝子を取得するのに問題があります。ネットワークを Cytoscape にエクスポートしようとしていますが、VisANT にエクスポートするために概説したのと同じ方法を使用して、トップ x ハブ遺伝子を取得しました。
各遺伝子への接続数をカウントする短いループを作成しましたが、期待どおりに機能しますが、x 番目の遺伝子には一貫して接続がありません。x が 30 だとしましょう。カットオフを 31 のハブ遺伝子に増やすと、30 番目の遺伝子はネットワーク内の他の遺伝子との接続を示しますが、31 番目の遺伝子は何も示しません。さらに、この変更により、ネットワーク内の他の遺伝子への接続数の一部が増加および減少します。ネットワークは 1 つの遺伝子によって大きくなり、変更は 30 番目の遺伝子によって説明される必要があるため、接続を追加する必要があるため、これは本当に気になりますが、これは出力には当てはまりません。
ループは想定通りに動いているようですので、ネットワークの構築に問題があるのではないかと考えています。私は現在、線形代数、行列、およびトポロジーについて知っていることを参照して、問題がソートされている方法またはそのようなものであるかどうかを確認しようとしていますが、 exportNetworkToCytoscape() 関数の方法にすぎない可能性があります動作します。
r - 複数の DNA 距離ファイルから同じグラフに複数のヒストグラムをプロットする方法は?
100 個の fasta ファイルがあり、遺伝的距離行列の重なり合うヒストグラムをプロットして、DNA データのブートストラップ複製間にどれだけの重なりがあるかを確認したいと思いますか?
次を使用して、各ファイルを ape に読み取らせる方法を見つけました。
次に、次を使用して、それぞれの遺伝的距離行列を生成します。
R コンソールから呼び出すと、遺伝的距離ファイルは次のようになります。
私が問題に遭遇するのは、各ブートストラップが同じウィンドウ内で他のブートストラップの上にプロットされるように、それぞれのヒストグラムをプロットすることです。以下のスクリプトは、それぞれを新しいウィンドウにプロットするだけで、重複しません。
これは、次の方法で難しい方法で実行できることを知っています。
.......最後のファイルへ
しかし、それは大変な作業になると思います。100 個のファイルには問題ありませんが、1,000 個のファイルを持っている他の人 (たとえば、GenBank データで作業している人など) の場合、これは多すぎるかもしれません。
また、いくつかの Unix を使用して別の方法で別のファイルを \t で区切られた列のリストに貼り付けることも試みました。
そのファイルは次のように表示されます。ファイルがどのように分離されているかを明確にするために、"" \t
しかし、read.dna を取得して各列を個別のデータ マトリックスとして読み取る方法がわかりません。read.table を取得してファイルを読み取ることができますが、そこでスタックしてしまいます
私は新しいRユーザーであるため、この時点で完全に困惑しています。これに対する解決策をオンラインでたくさん調べましたが、いくつかを含まないことがわかったものはないようです上で説明したようにこれを行うのが難しい方法の変形ですが、おそらく格子は仕事を成し遂げることができますか?