問題タブ [bioinformatics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
string - 一般的なサブパターンに従って短く均質な文字列(DNA)をクラスター化し、クラスのコンセンサスを抽出します
タスク:
共通のサブシーケンスパターンを共有するクラスで短いDNAフラグメントの大きなプールをクラスター化し、各クラスのコンセンサスシーケンスを見つけます。
- プール:およそ 300シーケンスフラグメント
- フラグメントあたり8〜20文字
- 4つの可能な文字:a、g、t、c
- 各フラグメントは、次の3つの領域で構成されています。
- 5つの一般的な文字
- gとcの8つ以上の位置
- 5つの一般的な文字
(正規表現として[gcta]{5}[gc]{8,}[gcta]{5}
)
計画:
マルチプルアラインメント(つまり、withClustalW2)を実行して、領域2の共通シーケンスとそのコンセンサスシーケンスを共有するクラスを見つけます。
質問:
- 私のフラグメントは短すぎますか?サイズを大きくするのに役立ちますか?
- 領域2は、そのシーケンスでパターンを表示するには、許可されている文字タイプが2つしかないため、均質すぎますか?
- このタスクのためにどの代替方法またはツールを提案できますか?
よろしくお願いします、
サイモン
python - BioPython: Entrez.esummary/Entrez.read で不正な GID をスキップする
変なタイトルでごめんなさい。
eSearch と eSummary を使用して移動しています
アクセッション番号 --> gID --> TaxID
「accessions」が 20 の登録番号のリストであると仮定します (NCBI が許可する最大値であるため、一度に 20 とします)。
そうです:
これにより、これらの 20 のアクセッション番号から 20 の対応する GID が得られます。
に続く:
gids の GID の 1 つが NCBI から削除されているため、このエラーが発生します。
私は試すことができます:, except: それ以外は、問題のない他の 19 個の GID をスキップします。
私の質問は:
Entrez.read を使用して一度に 20 レコードを読み取り、他の 20 レコードを犠牲にすることなく、欠落しているレコードをスキップするにはどうすればよいですか? 一度に 1 つずつ実行できますが、それは信じられないほど遅くなります (私は 300,000 のアクセッション番号を持っており、NCBI では 1 秒あたり 3 つのクエリしか実行できませんが、実際には 1 秒あたり 1 つのクエリのようです)。
functional-programming - どの関数型プログラミング言語にバイオインフォマティクスライブラリがありますか?
バイオインフォマティクスライブラリを簡単に利用できる関数型プログラミング言語はどれですか?
( Rubyなどのマルチパラダイム言語を含めないでください)
更新:現在、バイオインフォマティクスライブラリに簡単にアクセスできない主要な関数型プログラミング言語のリストも歓迎します。
perl - PerlでDNA配列から開始コドンと終了コドンを抽出するにはどうすればよいですか?
以下に、特定の DNA 配列の開始コドンと終了コドンの位置を特定しようとするコードを示します。開始コドンをATG配列、終了コドンをTGA、TAA、TAG配列と定義します。
私が抱えている問題は、以下のコードが最初の 2 つのシーケンス (DM208659 と AF038953) でのみ機能し、残りは機能しないことです。
以下の私のアプローチの何が問題になっていますか?
このコードは、ここからコピーして貼り付けることができます。
python - Pythonで複数列に対して2行で出力
次の情報を含む出力リストを使用しています。
サンプル名を列のタイトルとしてフォーマットし、次に列のサンプルの値をフォーマットするExcelファイルに書きたいと思います。一部のサンプルには値がないため、これらのスペースは空白になるか、データ表記がありません。このように見えるもの (申し訳ありませんが、列の分離を示すために >> を使用する必要がありました):
どんな助けでも素晴らしいでしょう。
perl - これを「慣用的な」Perl に変更するにはどうすればよいですか?
私は Perl を深く掘り下げ始めていますが、Perl で C を書く代わりに「Perl 風」のコードを書くのに苦労しています。次のコードを変更して、より多くの Perl イディオムを使用するにはどうすればよいですか? また、イディオムを学習するにはどうすればよいですか?
それが何をしているかの簡単な説明: このルーチンは、DNA またはアミノ酸配列を整列させるモジュールの一部です (そのようなことに関心がある場合は、Needelman-Wunch を使用してください)。2 つの 2 次元配列を作成します。1 つは 2 つのシーケンスの各位置のスコアを格納するためのもので、もう 1 つはパスを追跡するためのもので、後で最高スコアのアライメントを再作成できるようにします。それはうまくいきますが、私は物事を非常に簡潔かつ明確に行っていないことを知っています.
編集:これは割り当て用でした。完了しましたが、コードを少し整理したいと思います。アルゴリズムの実装に関する詳細は、興味のある方はクラスの Web サイトで見つけることができます。
bioinformatics - BioPython で BLAST クエリを実行する
私はしたいと思います
- BLAST いくつかのシーケンス
- 各クエリから上位 100 件程度のヒットを取得する
- ダウンロードした配列をプールする
- 重複を削除
BioPython でこれを行うにはどうすればよいですか?
r - R 統計パッケージ: GOFrame オブジェクトのラッピング
サポートされていない生物の R で遺伝子オントロジー マッピングを生成するために GOFrame オブジェクトを生成しようとしています ( http://www.bioconductor.org/packages/release/bioc/vignettes/GOstats/inst/doc/GOstatsForUnsupportedOrganisms.pdfを参照)。
ただし、文字通り指示に従っても役に立ちません。これが私が実行するコードです(ubuntu koala 64ビットのR 2.9.2)
ただし、データフレームを goFrame オブジェクトにマップしようとすると、この間違いが発生します
GOFrame ラッパーが AnnotationDBI ライブラリにあると確信しているので、困惑しています。どんな助けでも大歓迎です:-)
java - DNA配列の計算
レーベンシュタインアルゴリズムを使用してJavaでDNA配列を計算する方法を教えてください
customization - BLASTの出力をカスタマイズしますか?
私はこれがBLASTとバイオインフォマティクスに関連する非常に具体的な質問であることを知っていますが、ここに行きます:
スタンドアロンのBLAST(すでにダウンロードしてコマンドラインで実行してテスト済み)を使用して、DNA配列アラインメント(blastn)を実行しようとしています。自分のクエリファイル(fasta形式)と自分のデータベースファイル(fasta形式)の両方を提供できる必要があります。
重要なのは、プログラムが通常出力する詳細なレポートではなく、2つのフィールドのみを出力するようにすることです。アライメントの最高スコアとe値のみを出力したい。これが機能するようになったら、これを自分の制御プログラムでラップし、さまざまなクエリシーケンスで何度も自動的に実行して、スコアとe値をログに記録できるという考え方です。
私はこれがロングショットであることを知っていますが、誰かが私がこれを行うためにどのように取り組むことができるかについての考えを持っていますか?私にとっての2つのハードルは、自分のデータベースファイルを使用することと出力をカスタマイズすることです。