問題タブ [genetics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
51 参照

bioinformatics - オルソロガス群のクラスター [ソフトウェア]

分類する遺伝子は約 3500 個あり、それらを COG で分類したいと考えています。これを行う良い方法、つまりソフトウェアまたはサーバーを知っている人はいますか?

0 投票する
1 に答える
239 参照

r - GenABEL: 植物 GWAS で性別「NA」が欠落している

二倍体植物種のGWASにGenABELを使用したいのですが、フェノファイルに「性別」列が必要なため、GenABELは固執しました。男性は「1」、女性は「0」で埋めてください。しかし、私は植物種を扱っています。私は何をすべきか?

R のエラー:

if (length(a) == 1 && !(names(a)[1] == 0 || names(a)[1] == 1)) stop("the column named \"sex\" contains のエラー0 (=女性) でも 1 (=男性) でもない 1 つのコード") : TRUE/FALSE が必要な場所に欠損値

0 投票する
0 に答える
230 参照

python - Python による Contig 拡張

コンティグ (incon= 初期コンティグ; DNA シーケンス) を受け取る DNA シーケンスを使用して辞書を作成するプログラムに関数を追加し、辞書のキーの形で重複部分を見つけて値を連結することにより、右に拡張します。 「+」演算子。

簡単な例を挙げます:

初期コンティグとして GATTTGAAGC

ATTTGAAGC:A は、ディクショナリ内の多数のエントリの 1 つです。

関数で、辞書のキーである重複部分 (昨日ここで質問したところ、それ自体と特定の値では正常に機能しましたが、変数を持つ関数内では機能しませんでした) を検索し、そのキーの値を連結して、最初のシーケンス(コンティグを右に拡張)し、新しいシーケンスを保存してから、inconこの辞書エントリを削除し、エントリがなくなるまで繰り返します(この部分はまだ試していません)。

まず、長さ 1 の値を持つ長さ 9 のキー (ATTTGAAGC:A) を検索し、長さ 2 の値を持つ長さ 8 のキーの重複部分がない場合 (fe ATTTGAAG:TG) などを検索する関数が必要です。

追加情報: 辞書 "suffixDicts" には、長さが 1 (キーの長さは 14) から 10 (キーの長さは 5) の値を持つエントリがあります。

「読み取り」は、シーケンスのリストが保存される場所です

ステップを次々と実行しようとすると、いくつかの作業(検索など)とそうでないものがありますが、そこから関数を構築しようとすると、文字通り何も起こりません。この関数は、可能な限り最小の拡張子を返すことになっています。

私はPythonに非常に慣れていないので、おそらく私が犯した非常に悲惨な間違いがあるので、それらを指摘してもらいたい. 私はこれで頭がいっぱいであることを知っていますが、既存のコードのほとんどの部分を理解していますが、おそらく間違ったシンタックスが原因で、自分で何かを実装する際にまだ問題があります. 使用できるプログラムがあることは知っていますが、その背後にあるすべてを理解したいと思います。

編集:求められたように、すでに与えられた機能を追加します。それらのいくつかは、与えられたコードに基づいて私が書いたいくつかの部分がすでに書かれていました(基本的に、いくつかの微調整を加えてコピーしました)。警告: かなり多いです:

Fasta ファイルの読み取り: 追加情報: Fasta ファイルには、大量の配列が次の形式で含まれています。

"> 1を読む

TTATGAATATTACCGCAATGGACGTCCAAGGTACAGCGTATTTGTACGCTA

"> 2 を読む

AACTGCTATCTTTCTTGTCCACTCGAAAATCCATAACGTAGCCCATAACG

"> 3を読む

TCAGTTATCCTATATACTGGATCCCGACTTTAATCGGCGTCGGAATTACT

ここにファイルをアップロードしました: http://s000.tinyupload.com/?file_id=52090273537190816031

編集: コードの大きなブロックを編集しましたが、必要ないようです。

0 投票する
1 に答える
2114 参照

r - R- haploNet haplotyp Networks {pegas} {ape} {adegenet} で正しい円グラフをプロットする方法

haploNet パッケージを使用してハプロタイプ ネットワーク上でいくつかのプロットを作成する場合、インターネットで入手できるスクリプトを使用して実行しました。しかし、私は何かが間違っていると思います。スクリプトは、woodmouse の例の形式で入手できます。私が使用したコードは次のとおりです。

ただし、ind.hap をプロットすると、一部の行が適切な場所にないことがわかります。これはここで見ることができます:

行 IX が適切な場所にないことがわかります。これはそれほど問題にはなりませんが、プログラムは行 9 を使用して、VIII のデータである IX の円グラフを作成します。結果は次のとおりです: (評判が 10 を下回っているため、画像を挿入できませんでした...とにかく、ファイル全体を実行することで画像を取得できます)

V から IX までは、本来あるべき状態ではないことがわかります (これらはスワップされた行です)。例: IX にはハプロタイプが 1 つしかありませんが、VIII データを使用して生成された 2 つのハプロタイプ (どちらもチャートの 50% を占めます) の円グラフがあります。行は昇順ではなくアルファベット順にソートされますが、これはパッケージ固有のものであるため、どうすればよいかわかりません。私は R の達人にはほど遠いので、抽象的になりすぎないようにして、代わりにコードを提供してください。

このパッケージをよく知っている人がいる場合は、woodmouse の例では見えなかったので、実際のチャートの後ろにこれらの奇妙な余分な線がある理由も説明してください (数字が付いています)。それも?)

事前にサンクス

0 投票する
2 に答える
319 参照

r - ジェノタイピングデータの変換方法

私はこれを持っていますdataframe(約 446664 X 234 の薄暗い) と呼ばれるmydf(dputが提供されています)。これdataframeには列REFとがありますALT

REFすべての行に 1 文字しかありませんがALT、コンマ (",") で区切られた 1 つ、2 つ、または 3 つの文字を含めることができます。残りの列 (サンプル列) は、すべての作業を行う必要がある列です。

の任意の文字をREF0、最初の文字をALT1、2 番目の文字を 2、3 番目の文字をそれぞれ 3 と考えると、次のような関数を作成する必要があります。

  1. すべてのサンプル列 (つまり、REF と ALT を除く) の数字を文字に置き換えることができます。

  2. それらに NA/NA を入力し、「/」を折りたたんで、すべてのセルでペアの文字を取得します。

  3. 最後に、 に示すように、すべてのサンプル列を行全体で反転する必要があります ( transpose) result。ありがとうございました!

    /li>

期待される出力:

0 投票する
2 に答える
63 参照

python - .split() に関する簡単な考え

したがって、python を使用してパネット スクエアを作成する必要があります。パネット スクエアは基本的に、目に見える特性と、場合によっては目に見えない特性を決定する単純な方法です。これまでのところ、私のコードは 2 つの親の遺伝子構成を取得し、A と G のさまざまな組み合わせをすべて見つけています。この時点で私が抱えている唯一の問題は、印刷するときに文字が正しい順序になっていないことです。たとえば、各「子供」の可能な遺伝子構造には、2 つの A (大文字または小文字) と 2 つの G (大文字または小文字) があります。私はかなりの量の調査を行いましたが、SOF に関する唯一の他の質問/回答のうち、私のものに多少関連しているものは明確ではなく、機能しませんでした。私のコードは次のとおりです。

そして、それは印刷されます

いつ印刷する

各オプションが4回出力されることは承知しています。最も正確な確率を得るには、このようにする必要があります

どうもありがとう

エリ

0 投票する
2 に答える
185 参照

r - 遺伝子型データを操作する R コード

と呼ばれるこのデータがありmydfます。

列内の文字 (DNA 文字)REFと( )ALTを一致させ、対応する数値を として貼り付ける必要があります。colnames(x)"A","T","G","C""REF,ALT"

ただし、列にある行がいくつかあり"snp:+[0-9]"ます。"flat$"TYPE

"flat$"私がしたい行のために:

  1. 文字が一意である場合、平らな線自体を含め、対応するid のALT値をできるだけ多く合計します(1 つの平らな線について中括弧で囲まれたスクリプトを参照してください)。"snp:+[0-9]""start"ALT
  2. そのALT値をもう一度貼り付け"REF,ALT"ます(REF値は両方で同じで"snp:+[0-9]""flat$"同じ開始IDになります)
  3. 結果に示すように出力を取得します。

私はこれを 1 つのフラット ラインに対してflatcase実行しましたが、すべてのフラット ラインに対して同じことができるように関数を作成するのに助けが必要です。

に対してこれを行う関数を作成するにはどうすればよいflatcaseですか?

コード

flatCase で試した機能は次のとおりです。

mydf

結果:

0 投票する
1 に答える
1329 参照

r - X ラベルと要因ごとにグループ化された境界線を持つ積み上げ棒グラフを作成するにはどうすればよいですか?

構造プロットとまったく同じ積み上げ棒グラフを作成したいと思います (プログラム disstruct を使用)。X ラベルを共通因子でグループ化し、この因子を 1 回だけ表示するにはどうすればよいでしょうか? たとえば、以下には 2 つの集団からの 6 人の個体があり、集団グループを中心とする 2 つのラベルのみが必要です。また、各グループの周りにボックスを配置する方法はありますか?

ここに私が持っているものがあります:

前

そして、ここに私が欲しいものがあります:

後

可能であれば、space=パラメータを設定し、グループ間の黒い境界線の幅を個別に選択するとよいでしょう。

私が参照したプログラムは次のとおりです: http://pritchardlab.stanford.edu/structure.html

多分 ggplot はこれに適していますか? 答えが明らかな場合は申し訳ありませんが、わかりません。

""特定の値を手動で入力できることに注意names.argしてください。ただし、これは巨大なデータセットの場合は面倒であり、ラベルを適切に中央に配置できず、境界線の問題を解決できません。