問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - BLASTn スコアの重要性を評価していますか?
スタンドアロンのコマンド ライン ブラストを実行して、多くのクエリ シーケンスをヌクレオチドの大規模なデータベース シーケンスに対して整列させています。blastn プログラムのコマンド ライン パラメータを変更して、一致/不一致スコアなどのさまざまなパラメータを変更できます。
私は疑問に思っています- blastn が出力する「ビットスコア」について、ビットスコアを比較して、クエリとデータベースシーケンスが同一であるが、一致/不一致パラメーターが異なるアライメントのビットスコアを比較することは理にかなっていますか? ブラストがさまざまなパラメーター値でどの程度うまく機能しているかを評価しようとしていますが、すべてが均等な根拠で比較されていることを確認したいと考えています。ありがとう。
bioinformatics - multiFASTAファイル処理
multiFASTAファイルを処理して、配列の数、長さ、ヌクレオチド/アミノ酸の含有量などの情報を取得し、説明的なプロットを自動的に描画できるバイオインフォマティクスツールがあるかどうか知りたいと思いました。R BIoconductorソリューションまたはBioPerlモジュールでもかまいませんが、何も見つかりませんでした。
手伝って頂けますか?どうもありがとう :-)
r - 破損した Affymetrix CEL ファイルの迅速な評価
Rを使用して大量のAffymetrix CELファイルを正規化しようとしていますが、一部が切り捨てられているように見えるため、それらを読み取るときにエラーが発生します
そして、正規化は停止します。破損したファイルを手動で削除して毎回再起動すると、非常に時間がかかります。破損したファイルを検出するための高速な方法 (R またはツールを使用) があるかどうか知っていますか?
PS 同じプラットフォームの CEL を一緒に正規化していると 99.99% 確信しています。実際には切り捨てられたファイルです :-)
python - マルチプロセッシングのためにPythonで大きなファイルを分割する最良の方法は何ですか?
モジュールと並列化したい「恥ずかしいほど並列な」プロジェクトがたくさんありmultiprocessing
ます。ただし、多くの場合、巨大なファイル (2 GB を超える) の読み取り、行ごとの処理、基本的な計算の実行、および結果の書き込みが必要になります。ファイルを分割し、Python の multiprocessing モジュールを使用して処理する最良の方法は何ですか? 使用する必要がありますQueue
か?それともモジュール自体?または、を使用してプロセスのプールに反復可能なファイルをマップする必要がありますか? これらのアプローチを試してみましたが、行ごとにデータを分散させるとオーバーヘッドが膨大になります。私は、最初のプロセスの特定の割合を通過するを使用して、軽量のパイプ フィルター設計に落ち着きました。JoinableQueue
multiprocessing
Queue
multiprocessing
cat file | process1 --out-file out1 --num-processes 2 | process2 --out-file out2
)、しかし、Pythonに完全に含まれるソリューションが欲しい.
驚いたことに、Python のドキュメントでは、これを行う標準的な方法は提案されていません (multiprocessing
ドキュメントのプログラミング ガイドラインに関する長いセクションにもかかわらず)。
ありがとう、ヴィンス
追加情報: 1 行あたりの処理時間は異なります。高速で I/O バウンドがほとんどない問題もあれば、CPU バウンドの問題もあります。CPU バウンドで非依存のタスクは、並列化からポストを獲得するため、データを処理関数に割り当てる非効率的な方法であっても、ウォール クロック時間に関しては依然として有益です。
典型的な例は、行からフィールドを抽出し、さまざまなビット単位のフラグをチェックし、特定のフラグを持つ行をまったく新しい形式で新しいファイルに書き込むスクリプトです。これは I/O バウンドの問題のように思えますが、パイプを使用した安価な並行バージョンで実行したところ、約 20% 高速でした。プールとマップ、またはキューで実行すると、multiprocessing
常に100%以上遅くなります。
regex - 酵素的切断には正規表現が存在しますか?
タンパク質配列の(理論上の)トリプシン切断には正規表現が存在しますか?トリプシンの切断規則は次のとおりです。RまたはKの後ですが、Pの前ではありません。
例:
配列の切断VGTKCCTKPESERMPCTEDYLSLILNR
により、次の3つの配列(ペプチド)が生成されます。
2番目のペプチドではKの後に切断がないことに注意してください(PはKの後に来るため)。
Perlの場合(C#、Python、Rubyの場合も同様です):
私はこの回避策を使用しました(カットマーカー=が最初にシーケンスに挿入され、Pがカットメーカーの直後にある場合は再度削除されます):
ただし、これには文字列を変更する必要があり、非常に長くなる可能性があり、数百万のシーケンスが存在する可能性があります。正規表現をsplitで使用できる方法はありますか?はいの場合、正規表現は何になりますか?
テストプラットフォーム:WindowsXP64ビット。ActivePerl64ビット。perl -vから:MSWin32-x64-multi-thread用にビルドされたv5.10.0。
python - XML NCBI BLAST ファイルから最初のヒット要素を抽出する方法は?
NCBI xml BLAST ファイルから最初のヒットのみを抽出しようとしています。次は最初の HSP だけを取得したいと思います。最終段階では、最高のスコアに基づいてこれらを取得したいと思います。ここで物事を明確にするために、xml ファイルのサンプルを示します。
基本的に、クエリ検索ごとに Iteration 要素が作成されます。各反復には複数のヒットがあり、複数の HSP がある場合があります。最初のヒットだけを取得したいのですが、それは各反復の最初の HSP です。BLAST でヒットが見つからない場合は、反復を無視したいと思います。この簡単なコードを作成しました:
どんな助けでも大歓迎です!
python - Python、巨大な反復パフォーマンスの問題
それぞれ約500万文字の長さの3つの単語を反復処理しており、各単語を識別する20文字のシーケンスを見つけたいと考えています。つまり、長さ20のすべてのシーケンスを、その単語に固有の1つの単語で検索したいと思います。私の問題は、私が書いたコードの実行に非常に長い時間がかかることです。私は一晩で私のプログラムを実行している一言も完了したことがありません。
以下の関数は、辞書を含むリストを取得します。各辞書には、20の可能な各単語と、500万の長い単語の1つからの位置が含まれています。
誰かがこれを最適化する方法を知っているなら、私は本当に感謝するでしょう、私は続行する方法の手がかりがありません...
これが私のコードのサンプルです:
blogs - バイオインフォマティクスのリソース
プログラミングに関しては、フォローすべきブログがいくつかありますが、別の分野に挑戦しようと考えている場合、どうすれば有名な人を見つけることができますか?
バイオインフラマティクスの分野を試して、このドメインからのブログを読むことを毎日のスケジュールに追加したいと考えています。おすすめのブログを教えてください。
python - pymolのデカルト座標から色付きの球を描画します
ビーズ、デカルト座標+エネルギーに関する次の情報を変換する方法をウィキで探していました:
23.4 54.6 12.3 -123.5 54.5 23.1 9.45-56.7......。
虹のグラデーションで、各原子の座標を中心とし、色の付いた半径Rの球を含むpymolの描画に。
ありがとう