問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - 「fastaファイルのシーケンスの平均の長さ」:このErlangコードを改善できますか?
Erlangを使用してfastaシーケンスの平均長を取得しようとしています。fastaファイルは次のようになります
私は次のErlangコードを使用してこの質問に答えようとしました:
コンパイル/実行:
このコードは小さなfastaファイルでは問題なく機能するようですが、大きなファイル(> 100Mo)の解析には数時間かかります。なんで ?私はアーランの初心者です。このコードを改善していただけませんか?
clojure - 反復テキスト解析のためのclojurelazy-seqの使用法の改善
私はこのコーディングチャレンジのClojure実装を作成しており、Fasta形式のシーケンスレコードの平均の長さを見つけようとしています。
詳細な背景については、Erlangソリューションに関するこの関連するStackOverflowの投稿を参照してください。
私の初心者のClojureの試みでは、lazy-seqを使用して、一度に1レコードずつファイルを読み込もうとしているため、大きなファイルにスケーリングされます。ただし、かなりメモリを消費し、低速であるため、最適に実装されていないのではないかと思います。これは、 BioJavaライブラリを使用してレコードの解析を抽象化するソリューションです。
および外部ライブラリを使用しない同等のアプローチ:
現在の実装は、Python実装の7秒と比較して、大きなファイルでは44秒かかります。コードを高速化し、より直感的にするための提案はありますか?lazy-seqの使用法は、意図したとおりにファイルレコードをレコードごとに正しく解析していますか?
java - JBoss droolsを学ぶ:私のモデルはどうあるべきか
私はJBossDroolsを学んでおり、hapmapプロジェクトの遺伝学データで遊んでいます:(http://hapmap.ncbi.nlm.nih.gov/genotypes/latest/forward/non-redundant/)。このディレクトリ内の各ファイルは、上部に個人、左側にゲノム上の位置、および各個人/位置で観察された変異を含むテーブルです。
ここでは、Droolsを使用して、ファイル内のいくつかの潜在的なエラー(たとえば、子供には両親からの突然変異がない)を見つけたいと思います。
1)これらのデータをDroolsにロードしたい。これは大量のデータになる可能性があります(たとえば、genotypes_chr2_YRI_r27_nr.b36_fwd.txt.gzは20Mo gzip圧縮されています)これらのデータはメモリに保存されますか?またはDroolsはそれをどこかに保存しますか?または、永続化システムを使用する必要がありますか?
2)モデルについて:
私は次のクラスをStatefulKnowledgeSessionに入れることを考えていました:
または、ObservedMutationは次のようになります。
提案ありがとうございます
ピエール
更新:私の最初のテスト:http://plindenbaum.blogspot.com/2010/07/rules-engine-for-bioinformatics-playing.html
translation - Unicode 文字列の高速シーケンス アラインメント
BLAST アルゴリズムのようなものを実行して、Unicode 文字列の大規模なデータベースを照会したいと考えています。BLAST のようなアラインメント ソフトウェアのほとんどは、入力としてヌクレオチドまたはタンパク質の文字列を想定しています。しかし、私の入力には任意の Unicode 文字が含まれている可能性があります。これを可能にするソフトウェアを知っている人はいますか? スコアリング マトリックスは、単なる単位マトリックスである可能性があります (部分的な一致はありません)。
Needleman-Wunsch と Smith Waterman を試しましたが、私の目的には遅すぎます。BLAST のように、大規模なデータベースにクエリを実行する必要があります。
ありがとうございました!
computer-science - コンピューター科学者に最適なバイオインフォマティクスの本は?
私はバイオインフォマティクスの研究に興味がある CS 大学院生です。私は生物学の経験があまりありません。コンピューター科学者に最適なバイオインフォマティクスの本は?
perl - Perl でのピーク信号検出のヘルプが必要
こんにちは皆さん、酵母コロニープレートの画像から強度の値をいくつか持っています。強度値からピーク値を見つけることができる必要があります。以下は、グラフ化されたときに値がどのように見えるかを示す画像の例です。
値の例
これらの値は 75.4 と 75.3 に 2 つのピークを示しており、値が増加してから減少することがわかります。変化はいつも同じではありません。
強度値のグラフ
http://lh4.ggpht.com/_aEDyS6ECO8s/THKTLgDPhaI/AAAAAAAAAio/HQW7Ut-HBhA/s400/peaks.png調査より私が考えていることの 1 つは、各グループ、つまり山をハッシュに格納し、グループ内の最大値を探すことです。私が見ている問題の 1 つは、各グループの境界を決定する方法です。
ここに私がこれまでに持っているコードへのリンクがあります: http://paste-it.net/public/y485822/
完全なデータ セットへのリンクは次のとおりです: http://paste-it.net/public/ub121b4/
私はPerlでコードを書いています。どんな助けでも大歓迎です。ありがとうございました
ruby-on-rails - 科学のためにRubyonRailsをどのように使用しますか(該当する場合)?
システム生物学の研究を行っています。新しい生物学的データの収集には費用がかかるため、既存のデータセットを使用することをお勧めします。したがって、私たちが作成するスクリプトの多くは、あるデータセットから別のデータセットへの変換にすぎません。
最終的に、私たちは結果をオンラインで公開します-そしてますます多くのジャーナルがこの種のものを必要としています。
したがって、プロジェクトにRailsを使用してみるのは大きな飛躍ではありませんでした。簡単に再現可能な実験を設定し、データベーステーブルを段階的にデータを変換し(たとえば、rakeを使用)、flotomaticやgnuplotなどのgemを使用して結果を表示できます。非常に高速に実行するものが必要な場合は、Riceを使用してC ++でカスタムgemを作成したり、 starlingとworklingを使用して並列化することもできます。
結局、私は他の誰かがバイオインフォマティクスや科学一般を行うためにRailsを使用しているのではないかと思い始めました。
「もし私が科学研究のRailsの宝石だったら、どうしたらいいのだろう?」と思いました。
そのような宝石にはどのような追加機能がありますか?おそらく、レーキ可能なパイプラインへの移行の適応ですか?おそらく、より高度なグラフ機能ですか?組み込みのバックグラウンドジョブ?
cluster-analysis - 遺伝子ネットワークと遺伝子のクラスターグループを視覚化する方法は?
私は生物学的データ、つまり遺伝子のグループを扱っています。例えば:
遺伝子の各ペアについて、2つの遺伝子がどれほど類似しているかを示すスコアがあります(実際には、「方向性」のあるBLASTを使用したため、2つのスコアがあります。最初に他のすべての遺伝子を検索geneX
し、次に他のすべての遺伝子を検索しました。 、だから私は2つのスコアを持っていますが、私は2つのスコアの低い方、つまり平均を取ることができると思います)。geneY
geneX
geneY
geneX--geneY
したがって、遺伝子のペアごとにスコアが1つしかない場合を考えてみましょう。私のデータは無向グラフとして表示できます。
各エッジにスコアが付いていることを思い出してください。
さて、私がやりたいことは次のとおりです。
データをインタラクティブに視覚化します。遺伝子ノードをクリックしてそれらに接続されたリンクを開くことができ、しきい値の上下のエッジのみを表示したり、ネットワークの「拡散」方法を制御したりできます。
類似したグループ、つまり類似した遺伝子を持つグループをクラスター化します。
どうすればそれができるかについてのアイデアはありますか?これは基本的なクラスタリングだと思います。ここで役立つパッケージ/ソフトウェアに関するヒントをいただければ幸いです。
ありがとうございました。
bioinformatics - プログラムによる blastn データベースの取得
Nucleotide BLASTの検索ページで
「Choose Search Set」ボックスにリストされているデータベースをプログラムで取得する方法はありますか? おそらくXML形式ですか?(使用するプログラミング言語は問いません)
bash - awkを使用して、2つの列の値から2つの配列を作成し、差と合計の差を見つけて、データを出力します
次のフィールド(および右側の値の例)を含むファイルがあります。
これはファイルの短縮版です。
たとえば、エクソンの開始と終了の差を合計する必要があります。
違い:
合計(hg18.ensGene.exonLenSum):
そして、私は出力に次のフィールドを持たせたいです:
このような:
入力ファイルのすべての行に対して1つのawkスクリプトを使用してこれを実行したいと思います。これどうやってするの?これは、エクソンの長さを計算する場合、たとえばRPMK(Reads Per Kilobase exon Model per million maped read)の計算に役立ちます。