問題タブ [genome]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - Flux Simulator ゲノムデータ処理
私は、ゲノム/gtf データを FASTA ファイル形式に変換する作業を行っています。そのためにフラックスシミュレーターを使用しています。フラックス シミュレーターのデモ例は問題なく動作します。その後、http://hgdownload.soe.ucsc.edu/downloads.html、https://genome.ucsc.edu/cgi-bin/hgTables?command=startからゲノムと gtf データをダウンロードしました。
しかし、mouse(mm9) gtf の実行中はまったく機能せず、次のエラーが表示されます: [ERROR] Error while loading stats: Field 5 not found java.lang.IllegalArgumentException: Field 5 not found
また、「ハエ」ゲノムのフラックスシミュレーターを実行しようとしました。
このエラーが発生しました: [INFO] トランスクリプト シーケンスを準備するデフォルトの PCR ディストリビューションを読み込んでいます ** エラー [エラー] シーケンスの準備中にエラーが発生しました: [エラー] 断片化中にエラーが発生しました: シーケンス chr2L を読み取る際の問題: pos 22877860、len 82、染色体シーケンスが存在するかどうかを確認してください / java.lang.RuntimeException: シーケンス chr2L の読み取りに問題があります: pos 22877860、len 82、
これらの問題を解決する方法を教えてください。
numpy - numpyで構造化dtypeをインスタンス化する構文は何ですか?
次のようなdtypeがある場合
その dtype のインスタンスをスカラーとして作成するにはどうすればよいですか。
より良い方法がある場合の背景:
染色体ごとに、ゲノムの塩基に直接マッピングされるスカラーの配列を効率的に表現したいと考えています。これらのゲノム配列の配列は必要ありません。それぞれは、名前/位置で参照したい構造化されたスカラーのセットであり、加算/減算/などを行うことができます。
dtype.type() はおそらく前進する道のようですが、この関数を正しく呼び出すための有用なドキュメントはまだ見つかりません。
だから私が持っていると仮定します:
最後の行は正しくありませんが、うまくいけば、私が現在試みていることを伝えています。
これは恐ろしい考えですか?もしそうなら、正しい考えは何ですか?そうでない場合、それを実装する正しい方法は何ですか?
この種の作品は、しかしひどいです:
r - R の LiftOver (エラー)
パッケージで LiftOver 関数を使用しようとしていrtracklayer
ますが、1 つのエラーが発生します。これが私のコードです。
使用した作業フォルダーにチェーン ファイルをダウンロードして抽出するには:
エラーは次のとおりです。
なぜそれが機能しないのかいくつかのアイデアはありますか? ありがとうございました!
bioinformatics - タンパク質配列のデータベースから DNA 配列を検索していますか?
私は FASTA に 1000 のタンパク質配列とそれらのアクセッション番号を持っています。全ゲノム ショットガン データベースに戻り、最初の配列のリストにあるものと同一のタンパク質をコードするすべての DNA 配列を取得したいと考えています。
シーケンスごとに 10 件未満の結果、クエリごとに 1 件、e-value が 1e-100 未満、または e-value がゼロの tBlastn を実行しようとしましたが、結果が得られません。このプロセス全体を自動化したいと考えています。
これは、コマンド ラインとバッチ スクリプトから blast を実行することで実行できるものですか?
regex - ゲノム配列を抽出する Python 正規表現
Python 正規表現を使用して、ゲノム データベースからゲノム シーケンスを抽出しようとしています。以下にデータベースのスニペットを貼り付けました。
私がやろうとしているのは、GSVIV01031740001 のゲノム (ACGT) 配列 (中央の配列) を取得することです。他の配列は取得しません。私の現在の正規表現は
私のロジックでは、正しい生物の genbank ID を持つヘッダーを見つけて、その行を指定してから、新しい行に移動し、別の genbank ID を持つ生物のヘッダーに到達するまで、すべての ACGT と新しい行を指定します。これでは結果が得られません。
はい、re.compile が実際には検索を実行しないことはわかっています。「ターゲット」として開かれたファイルに対して検索しているため、実行は次のようになります
正規表現で、または最初に正規表現を使用して、誰かが私が間違っていることを教えてもらえますか? これをregex101.com で試してみるとうまくいきますが、Python インタープリター (2.7.1) で試してみると失敗します。
ありがとう!
r - 巨大なファイルで因子レベルをより効率的に置き換える
800000 行と 13000 列のファイルがあります。ファイルは次のようになります。
文字を数字に置き換えたい (AA = 0、AB = 1、BB = 2)。私がやったことは次のとおりです: data[data=="AA"] = 0 小さな例では問題なく動作しているようですが、大きなファイルでは機能していないようです。何時間もかかりました。それを行うためのより効率的な方法はありますか?どうもありがとうございました。ポーラ。
matlab - 多変数遺伝的アルゴリズムのゲノムに対して遺伝的操作を実行するさまざまな方法のパフォーマンスへの影響
私は自分の研究で遺伝的アルゴリズムを頻繁に使用していますが、ゲノムに対して遺伝的操作を実行する最善の方法について興味深い質問に出くわしました。f(x,y) = a x^n + b x^n-1 + ... + c y^m + d y^m-1 ...などで定義された関数があるとします。それは単なる多変数です計算するのにいくらかコストがかかる関数なので、遺伝的操作をできるだけ効率的にしようとしています。
ゲノムのバイナリ表現を使用している場合、遺伝操作を実行するには2つの合理的な方法があることがわかりました。クロスオーバーステージだけ見てみましょう。
以下は、Matlab でのベクトル化されたトーナメント選択のコードです (変数名のコンテキスト用)。
したがって、最適化されている2つの異なる変数があり、私の質問は、遺伝的操作を分割して、各変数に個別にクロスオーバーを適用し、配列を連結して戻すことで、2点の場合は次のようになりますか?クロスオーバー:
または、ゲノムを単一のクロスオーバー操作として扱い、次のように単一の変数ゲノムであるかのように 2 点クロスオーバーを実行します。
ゲノムを表す 2 つの異なる方法の違いを示す研究が行われたことを知っている人はいますか? それについて公開されているものを見つけることができませんでしたが、Googleで質問をインテリジェントに表現する方法を知らなかったためかもしれません.
ありがとう
r - ゲノムセグメントへの位置の連結
0.955
以上の類似性スコアを持つすべての行を連結したいと思います。および列は、それぞれ上下の行との類似性スコアを表しますAbo
。Bel
次の入力では、4 つのゲノム セグメント ( ) に連結されたdf
10 個のゲノム プローブ (NAME
列) がありますdfout
。
私の期待される出力dfout
:
何か案は?