問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Rで基本的な複数配列アラインメントを実行するには?
(私はBioStarsでこれを尋ねてみましたが、テキスト マイニングの誰かがより良い解決策があると思う可能性がわずかにあるため、ここにも再投稿しています)
私が達成しようとしているタスクは、いくつかのシーケンスを整列させることです。
一致する基本的なパターンがありません。私が知っているのは、「True」パターンの長さは「30」でなければならず、シーケンスにはランダムなポイントで欠損値が導入されているということだけです。
これはそのようなシーケンスの例です。左側に欠損値の実際の位置が表示され、右側に観察できるシーケンスが表示されます。
私の目標は、右側の列にあるシーケンスのみを使用して左側の列を再構築することです (各位置の文字の多くが同じであるという事実に基づいて)
上記の例を再現するコード例を次に示します。
私が持っていたのが文字列とパターンだけだったら使用できることを理解しています
しかし、私が提示したケースでは、(それらを 1 つのパターンに整列させるのではなく) 互いに整列させるために多くのシーケンスを扱っています。
Rでこれを行うための既知の方法はありますか?
silverlight - バイオインフォマティクスのための Silverlight デモ
私は医療研究会社での面接の準備をしている初心者の Silverlight プログラマーです。仕事はとても面白そうに思えますし、そこに行きたいと思っています。私のスキルと興味を示すために、トピックに関連するプログラムを書きたいです。何を提案しますか?
最初のアイデア: 入力データの単純な統計分析、画像コレクション (たとえば、HD DNA 画像を見つけて Silverlight Deep Zoom に入れる)、ラボ インベントリ プログラム..
ruby - Rubyでの染色体データの処理
Rubyで処理している染色体データのファイルがあるとしましょう。
各行を配列のハッシュに貼り付けており、キーは列2のSegment_IDから取得され、値は列3のRead_Depthから取得されています。
上記のデータの2つの連続した行で構成される小さなセグメントであるプライマーは、各通常のセグメントの前に追加され、その後に続きます。通常のセグメントには、Segment_IDの空でない文字列値があり、長さが異なりますが、2番目の列に空の文字列がある行はプライマーの一部です。プライマーセグメントの長さは常に同じです。2。上記のように、Base_IDの1、2、5、6、7、8、12、13はプライマーの一部です。上記のデータには、合計で4つのプライマーセグメントがあります。
私がやりたいのは、列2のSegment_IDに空の文字列が含まれる行に遭遇したら、ハッシュの適切な要素にREAD_DEPTHを追加することです。たとえば、上記の私の望ましい結果は次のようになります
java - PyCogent に似ているが、Java (または Scala) のライブラリはありますか?
私は生物進化シミュレーターを書いています。現在、私のコードはすべて Python で書かれています。ほとんどの場合、これは素晴らしいことであり、すべてが十分に機能します。ただし、プロセスには時間がかかり、Scala で書き直したい 2 つのステップがあります。
最初の問題領域は、シーケンスの進化です。タンパク質の大規模なセットに関連する系統樹が与えられたと想像してください。各枝の長さは、親と子の間の進化距離を表します。ツリーのルートには単一のシーケンスがシードされ、進化モデル (例: http://en.wikipedia.org/wiki/Models_of_DNA_evolution ) を使用して、ツリー構造に沿ってシーケンスが進化します。枝の長さを考慮します。PyCogent はこのステップを実行するのに長い時間がかかりますが、合理的な Java/Scala 実装は大幅に高速になると思います。このタイプの機能を実装するライブラリを知っていますか。アプリケーションを Scala で作成したいので、相互運用性のために、任意の Java ライブラリで十分です。
2 番目の問題領域は、生成されたシーケンスの比較です。問題は、多数の異なる現存種のタンパク質の一連の配列が与えられた場合に、その配列を使用して種に関連する系統樹を再構築しようとすることです。基本的に、現存する種のすべての配列間でペアごとの比較を行う必要があるため、この問題は本質的に計算量が多くなります。ただし、ここでもまた、Java/Scala の実装は Python の実装よりもはるかに高速に実行されるように感じます。残念ながら、Python でのループの速度が遅いことだけが理由です。この部分は、シーケンスの進化部分よりも簡単にゼロから作成できましたが、良いライブラリがあれば喜んで使用します。
ありがとう、ロブ
r - Volacano Plot に関する質問
log2(ratio) 対 Z 値の有意性を使用して、実際のデータで火山プロットを作成しようとしていました。ただし、ポイントの分散は「通常の」火山プロットとは対照的に少なすぎて、シャープな「V」字型のプロットが得られます。
同じ X 値に対して Y 値が異なると、散乱が発生することを理解しています。しかし、ここで何が欠けていますか?
プロットは奇妙に見えます: http://img402.imageshack.us/i/volcanoi.jpg/
データ (比率) は、pastebin または添付ファイルから入手できます: http://pastebin.com/m2Jss3qF
Rコード:ここで何か間違ったことをしていますか?
bioinformatics - 特定の配列で珍しいコドンを見つける方法は?
配列のリストから珍しいコドンを見つけるプログラムを作成する背後にある概念は何ですか? 私は誰にもコーディングを求めていません。コンセプトを知りたいだけです。
python - Pythonでの大きなファイルの効率的なファイルバッファリングとスキャン方法
私が抱えている問題の説明は少し複雑であり、より完全な情報を提供する側で誤りを犯します。せっかちな人のために、これが私がそれを要約することができる最も簡単な方法です:
改行文字をスローしながら、テキストファイルをサイズN(バインドされたN、たとえば36)のすべての(重複する)サブ文字列に分割する最も速い(実行時間が最も短い)方法は何ですか。
FASTAASCIIベースのゲノム形式でファイルを解析するモジュールを書いています。これらのファイルは、「hg18」ヒトリファレンスゲノムと呼ばれるもので構成されており、必要に応じて、UCSCゲノムブラウザーからダウンロードできます(スラッグになります!)。
お気づきのように、ゲノムファイルはchr[1..22].faとchr[XY].fa、およびこのモジュールで使用されていない他の小さなファイルのセットで構成されています。
BioPythonのSeqIOなど、FASTAファイルを解析するためのモジュールがすでにいくつか存在します。(申し訳ありませんが、リンクを投稿しますが、まだポイントがありません。)残念ながら、私が見つけたすべてのモジュールは、私が行おうとしている特定の操作を実行しません。
私のモジュールは、ゲノムデータ(たとえば、「CAGTACGTCAGACTATACGGAGCTA」は1行である可能性があります)を、重複するすべてのN長のサブストリングに分割する必要があります。非常に小さなファイル(実際の染色体ファイルの長さは3億5500万から2000万文字)とN=8を使用した例を挙げましょう。
私が見つけた関数は、私が考えることができる方法の中で絶対的に最高のパフォーマンスを持っていました:これは次のとおりです。
これは機能しますが、残念ながら、この方法でヒトゲノムを解析するのに約1.5時間かかります(以下の注を参照)。おそらくこれは私がこの方法で見るのに最適です(完全なコードリファクタリングが必要かもしれませんが、このアプローチにはコードの他の領域でいくつかの非常に特定の利点があるため、避けたいと思います)が、私は私はこれをコミュニティに引き渡すと思いました。
ありがとう!
- この時間には、反対側のストランドの読み取りの計算や、サイズが約5Gのハッシュでのハッシュテーブルルックアップの実行など、多くの追加の計算が含まれることに注意してください。
回答後の結論: fileobj.read()を使用してから、結果の文字列(string.replace()など)を操作すると、プログラムの残りの部分と比較して時間とメモリが比較的少なくて済むことがわかったので、それを使用しましたアプローチ。みんな、ありがとう!
java - バイオインフォマティクス - ATOMS シーケンスを取得する必要があります
BioJava でメソッドを検索して、PDB ファイルから Atom シーケンスを取得します。BioJava API を見ましたが、getAtomSequence() ではアミノ酸をキャッチします。BioJava で他のいくつかの方法を試しましたが、思いどおりに機能しませんでした。
誰でもここで私を助けることができますか?
ありがとう
perl - 2つの異なるファイル内の2つの部分文字列の数と場所を見つけるにはどうすればよいですか?
与えられた2つのシーケンスから、3つのコドンごとにチェックする必要があり、変更が次のリストと同じである場合は、変更の場所と変更されたコドンをチェックして、それらの発生数をカウントする必要があります。
例えば:
私が取得する必要がある出力は
注:CAU->CAC
次のリストにないため、考慮されません。リスト:->変更の方向も考慮する必要があります。
私が今まで書いたコードは次のとおりです。
perl - multifasta ファイル内のモチーフを検索し、完全なシーケンスをヘッダー行とともに出力する perl スクリプト
multi fasta ファイルでモチーフを検索し、モチーフを含む行を印刷することはできますが、fasta シーケンスを含むモチーフのヘッダー行と共にすべてのシーケンスを印刷する必要があります。助けてください私はperlの初心者です