問題タブ [genetics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
236 参照

python - 配列を効率的に結合するPython numpy

私の質問は生物学的に重いように聞こえるかもしれませんが、生物学の知識がなくても誰でも答えられると確信しており、本当に助けを借りることができます.

5 行 10 列の numpy 2d 配列の形式である、突然変異のリストを受け取る関数 create_offspring(mutations, ゲノム 1, ゲノム 2) があるとします (5 つの val の各セットは突然変異です)。 :

この関数は、5 行 10 列の numpy 2d 配列の形式である 2 つのゲノムも受け取ります。ゲノムの各位置の値は、突然変異が発生していない場所の 5 つのゼロか、突然変異が発生したスポットの突然変異リストに対応する値で埋められています。以下は、位置 0 にまだ変異がなく、位置 1 にすでに変異があるゲノムの例です。

私が達成しようとしているのは、効率的に(私は現在動作する方法を持っていますが、遅くする方法があります)numpy配列と2つの親ゲノムのランダムな組み合わせである2つのゲノムから子ゲノムを生成することです(AKA the numpyアレイ)。ランダムな組み合わせとは、子配列の各位置が、親 1 ゲノムまたは親 2 の位置 X の 5 つの値である可能性が 50% あることを意味します。たとえば、親 1 が

親 2 は

子ゲノムは、50% の確率で位置 1 ですべてゼロを取得し、50% の確率で取得する必要があり[4, 3, 6 , 7, 8]ます。

さらに、子ゲノムが最初に渡されたミューテーション リストから対応するミューテーションを取得する確率が 0.01% である必要があります。

これを解決するための現在の方法がありますが、時間がかかりすぎます。

0 投票する
2 に答える
682 参照

r - Rプログラミング:ランダムな周波数を生成したい

Rを使用して集団の遺伝子頻度をシミュレートするために、ランダムな頻度(つまり、頻度は1に等しい必要があります)を生成したいと思います。私の解決策は次のとおりです。

除算前に合計を特定の値 (たとえば、乱数は 100 に等しくなければならない) に制限する方法に関する提案はありますか?

0 投票する
1 に答える
1064 参照

r - それらのペア間の特定の相関関係を持つ確率変数の生成:

2 つの連続確率変数 (量的特性、それぞれが正常) と 2 つのバイナリ確率変数 (バイナリ特性) を生成Q1Q2Z1それらZ2のすべての可能なペア間のペアワイズ相関を指定します。言う

Rでそのようなデータを生成するのを手伝ってください.

0 投票する
1 に答える
367 参照

haskell - 子孫が少なくとも 1 つの優性対立遺伝子を持つ確率の計算

http://rosalind.info/で「メンデルの第一法則」の問題を解決しようとしています。

私はいくつかの異なるアプローチを試しましたが、ページ上のサンプル問題と同じ答えを返すソリューションを得ることができません. ただし、サンプル出力が正しいことは知っています。

これが私が持っているものです:

コードが間違っているのか、確率を計算する方法が間違っているのかわかりません。基本的には、考えられるすべての親のリストを取得し、それらが優性ホモ接合体、劣性接合体、またはヘテロ接合体のいずれであるかに基づいて、親の各ペアが少なくとも 1 つの優性対立遺伝子を持つ子供を生み出す確率を計算します。次に、各結果を親のペアの総数で割ります。その後、リストを合計するだけです。しかし、私の答えは少し間違っています。

誰かが私を正しい方向に向けることができますか?

EDIT:cartProdは、渡された2つのリストの「デカルト積」です。

0 投票する
1 に答える
720 参照

r - R の小さな p 値の無限大に丸められた Z スコア

私は、1E-30 から 1 の範囲の p 値を持つゲノム全体の関連研究データセットを使用しています。p 値の変数「p」を含む R データフレーム「データ」があります。

次のコードを使用して、p 値のゲノム補正を実行する必要があります。

2 行目のコマンドでは、qchisq 関数を使用して p 値を z スコアに変換しています。p 値 < 1E-16 の z スコアは無限大に丸められています。これは、最も重要なデータ ポイントの p 値がゲノム補正後に 0 に丸められ、ランキングが失われることを意味します。

これを回避する方法はありますか?

0 投票する
2 に答える
118 参照

bash - 選択するスクリプト

私はGWASデータを扱っており、連鎖不平衡に依存しない遺伝子座を選択しようとしています. 私のアプローチは、すべての有意な SNP を最大から順にランク付けしてから、1KG のリストで上位の SNP と連鎖不平衡 (r2 > 0.2) にある SNP をすべて削除することです。

SNP を最多 --> 最下位からランク付けしたファイルがあります。

また、これらのそれぞれでLDにあるSNPをリストしたファイルもあります(SNAPから):

最初のファイルの SNP ID を読み取り、2 番目のファイルでその SNP ID を見つけ、2 番目のファイルの「プロキシ」列を読み取るスクリプトを実行したいと考えています。2 番目のファイルのプロキシ SNP のいずれもが最初のファイルの低い行番号にない場合 (つまり、ファイルの上位にあるほどランクが高い)、その SNP ID を出力ファイルに書き込むようにします。

この例では、出力ファイルは次のようになります。

私は awk と bash の経験がありますが、どちらも非常に新しく、このタスクをどこから始めればよいかわかりません。どんなポインタでも大歓迎です。

0 投票する
1 に答える
1027 参照

r - 無作為化実験における遺伝子発現データの平均によるプロット

私(Rの初心者)は、遺伝子発現に対する2つの治療の効果に関するランダム化研究を分析しています. ベースライン時と 1 年後に 5 つの異なる遺伝子を評価しました。遺伝子倍数は、1 年後の値をベースライン値で割った値として計算されます。

遺伝子例:IL10_BL IL10_1Y IL10_fold

遺伝子発現は、通常 0.1 ~ 5.0 の範囲の連続変数として測定されます。100 人の患者が、スタチン療法または食事療法のいずれかに無作為に割り付けられました。

次のプロットを作成したいと思います: - Y 軸は平均遺伝子発現を 95% の信頼限界で表示する必要があります - X 軸は、5 つの遺伝子のそれぞれのベースライン、1 年、倍数の値を治療別にグループ化して、カテゴリカルにする必要があります。したがって、2 つのグループの各遺伝子に 3 つの値を持つ 5 つの遺伝子は、X 軸上の 30 のカテゴリを意味します。同じ遺伝子の点が線で結ばれると本当にいいですね。

私は(ggplot2を使用して)これを自分でやろうとしましたが、成功しませんでした。私はこのように見える粗いデータから直接それをやろうとしました(最初の6つの観察と2つの異なる遺伝子):

これを行うための助け(または同様のスレッドへのリンク)をいただければ幸いです。