問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database - 情報獲得を使用して遺伝子をランク付けする方法は?
情報利得とカイ二乗統計を使用して、マイクロアレイデータの遺伝子ランキングをどのように行うのですか?? 簡単な例で説明してください..
r - 質量分析データの複数アラインメント用パッケージ
複数のスペクトルを整列させるための優れた R パッケージを探しています。
ありがとう。
python - シーケンスファイルを作成せずに BLAST (bl2seq) を実行する
BLAST クエリ (bl2seq) を実行するスクリプトがあります。
スクリプトは次のように機能します。
- 系列a、系列bを取得
- シーケンス a を filea に書き込む
- シーケンス b を fileb に書き込む
- コマンド「bl2seq -i filea -j fileb -n blastn」を実行します
- STDOUT から出力を取得し、解析します
- 2000万回繰り返す
プログラム bl2seq はパイピングをサポートしていません。これを行い、ハードドライブへの書き込み/読み取りを回避する方法はありますか?
私はPython BTWを使用しています。
python - マイクロアレイデータの堅牢なマルチアレイ平均のためのPythonスクリプト
私は運が悪かったグーグルを試しました。Pythonで実行されたが、コードではない堅牢なマルチ配列平均化への弱参照をいくつか見ました。私は車輪の再発明にはあまり興味がありません。Pythonモジュール、スクリプトに関する提案...。
アルゴリズムの良い説明や例を見つけることができれば、共有するPython実装を作成します。
私が何について話しているのかわからない場合は、これは定義ではありませんが、これを見ることができます。 http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/gcrma.html
cluster-computing - XGridを介したBLASTの実行
XGridでBLASTを実行した経験のある人はいますか?
グーグルは、「Xgrid BLAST」と呼ばれるツールが存在したことを明らかにしましたが、どこで入手できるかはわかりません。
bioinformatics - ソースコードでの Blosum62 のコーディング
「Needleman -Wunsch」による「Global Alignment」アルゴリズムを使用して、タンパク質のペアワイズ シーケンス アラインメントを実装しようとしています。
ソース コードに 'Blosum62 Matrix' を含めて、スコアリングを実行したり、2 次元マトリックスを埋めたりする方法がよくわかりません。
私がグーグルで検索したところ、ほとんどの人が標準の「Blosum62 マトリックス」を含むフラット ファイルを使用することを提案していることがわかりました。このフラット ファイルから読み取り、コード化された "Blosum62 Martrix" に入力する必要があるということですか?
また、別のアプローチとして、数式を使用してプログラミング ロジックに組み込み、「Blosum62 マトリックス」を構築することもできます。しかし、このオプションについてはよくわかりません。
どんなアイデアや洞察も大歓迎です。
ありがとう。
optimization - Rを使用して文字列を分割し、文字をカウントするより速い方法は?
FASTA ファイルから読み込まれた DNA 文字列の GC コンテンツを計算するより高速な方法を探しています。これは、文字列を取得して、文字「G」または「C」が出現する回数を数えることに要約されます。考慮する文字の範囲も指定したいと思います。
かなり遅い作業関数があり、コードでボトルネックを引き起こしています。次のようになります。
Rprof を実行すると、次の出力が得られます。
このコードを高速化するためのアドバイスはありますか?
optimization - Rの最適化:この状況でforループを回避するにはどうすればよいですか?
Rで単純なゲノムトラック交差を実行しようとしていますが、おそらくforループの使用に関連する主要なパフォーマンスの問題が発生しています。
この状況では、100bpの間隔で事前定義されたウィンドウがあり、各ウィンドウのどれだけがmylistの注釈でカバーされているかを計算しようとしています。グラフィック的には、次のようになります。
だから私はそれを行うためにいくつかのコードを書きましたが、それはかなり遅く、私のコードのボトルネックになっています:
当然、これは、ここで提供する例よりもはるかに大きいデータセットで使用されています。いくつかのプロファイリングを通じて、ボトルネックがforループにあることがわかりますが、* apply関数を使用してそれをベクトル化しようとすると、コードの実行速度が1桁遅くなります。
私はCで何かを書くことができると思いますが、可能であればそれを避けたいと思います。誰かがこの計算をスピードアップする別のアプローチを提案できますか?
java - MATLABでseqlogo図形のx軸を変更する
プログラムでたくさんのseqlogosを作っています。それらは数百列の幅であるため、seqlogo
通常実行すると、薄すぎて表示できない文字が作成されます。私はこれらの列のいくつか(必ずしも連続した列である必要はありません)だけを気にしていることに気づきました...ほとんどはノイズですが、いくつかは高度に保存されています。
私はこのスニペットのようなものを使用します:
これを行うと、データがどの列からのものであるかに関する情報が失われますが。
通常は、のx軸を変更するだけseqlogo
です。ただし、seqlogo
'はある種のクレイジーなJavaベースのオブジェクトであり、次のように呼び出されます。
動作しません。どんな助けでも大歓迎です。
ありがとう、ウィル
編集:
賞金として、軸ラベルを変更するためのあらゆる種類のクレイジーな方法を受け入れます(ただし、これらに限定されません):画像処理ツールボックスを使用して保存後に画像を変更する、テキストボックスを使用して新しいseqlogo関数を作成する、 java-code(可能な場合)など。「Pythonを使用する」、「このRライブラリを使用する」、またはその他の種類の非Matlabソリューションなどを受け入れるつもりはありません。
perl - なぜPerlは生物学研究でこれほど広く使われているのですか?
私は学生として生物学研究所のサポートスタッフとして働いており、Perlはどこでも使われているようです。すべてのプロジェクトに当てはまるわけではありませんが、ここの人々の半数以上がオフィス/デスクに数冊のPerlの本を持っているようです。
なぜPerlは生物学でそんなに使われるのですか?