問題タブ [sequence-alignment]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
827 参照

bioinformatics - Biopython は系統樹のルートをどのように決定しますか?

ルート化されていないツリーを構築し、 outgroup を明示的に指定することでルート化できるようにする他のパッケージ、特にape for R があります。

対照的に、BioPython ではルートを指定せずにルート付きツリーを直接作成できるため、たとえば次のコードからルートがどのように決定されているのか気になります。

ツリーが構築された後にここでシーケンスを作成しましたが、それでもこれはそのプロセスから構築された根付きツリーです。

ここに画像の説明を入力

0 投票する
1 に答える
3114 参照

python - ストリング長が等しくない複数の配列アラインメント

さまざまな長さの 3 ~ 1000 の短い (10 ~ 20bp) ヌクレオチド (「ATCG」) リードからコンセンサス シーケンスを作成する方法論が必要です。

簡単な例:

のコンセンサス配列が得られるはずです"AGGGGC"

BioPython ライブラリで複数配列アラインメント (MSA) を実行するモジュールを見つけましたが、同じ長さの配列に対してのみです。また、任意の長さの 2 つのシーケンスに対する Smith-Waterman スタイルのアラインメントにも精通しています (実装しています)。これらの要素を組み合わせたライブラリまたは実装 (不等長の MSA) が必要だと思いますが、何時間にもわたって Web やさまざまなドキュメントを精査した後、何も見つかりませんでした。

これを行うパイプラインに組み込むことができる既存のモジュール/ライブラリ (Python を推奨) またはプログラムに関するアドバイスはありますか?

ありがとう!

0 投票する
1 に答える
129 参照

python - 独自のアルファベットを定義し、biopython で MultipleSequenceAlignment を実行する

Biopython で MultipleSequenceAlignment を実行したいのですが、自己定義のアルファベットを使用します。背景は次のとおりです。私のシーケンスは数値状態のシーケンスであり、最大 5000 の状態があります。したがって、「0001」、「0042」、「4999」など、5000 文字のアルファベットが必要です。これらのシーケンスは、最大 50 州/文字の長さです。

だから私の主な質問は次のとおりです。

  • そのようなアルファベットをどのように定義できますか?
  • MultipleSequenceAlignment でこのアルファベットを使用するにはどうすればよいですか?

あるいは、シーケンスの代わりにリスト/配列で MultipleSequenceAlignment を実行することは可能ですか?

時間とヘルプをありがとう!

0 投票する
2 に答える
1787 参照

python - BioPython AlignIO ValueError は、文字列は同じ長さでなければならないと言いますか?

入力 fasta 形式のテキスト ファイル:

http://www.jcvi.org/cgi-bin/tigrfams/DownloadFile.cgi?file=/opt/www/www_tmp/tigrfams/fa_alignment_PF00205.txt

エラー:

ClustalOmega では異なる長さのシーケンスをアラインできるため、入力シーケンスは同じ長さである必要はありません。

これも機能しません...同じエラーが発生します:

BioPython に精通している人は、これを回避して fasta ファイルからシーケンスを整列させる方法を知っていますか?

0 投票する
1 に答える
197 参照

nlp - シーケンス アラインメント アルゴリズムを使用した NER の構築

背景:配列アラインメント に関するウィキペディアのページでは、DNA 配列アラインメント アルゴリズムは自然言語処理にも使用できると述べています。

質問: Named Entity Recognizer と DNA シーケンス ライブラリはどちらも近似文字列マッチングを行うため、DNA シーケンス ライブラリ ( Bowtieなど) を使用して NER を構築することは実用的ですか?

既存の NER オープン ソースを使用せず、DNA シーケンス ライブラリを使用して NER を構築する理由の 1 つは、私の NER で「スペルミスの修正」を自動的に取得できるようにするためです。

上記の私の仮定が理にかなっている場合 - DNA 配列ではなく有名人の名前のデータベースを入力できるオンライン DNA 配列決定ツールがあり、それが一致することを期待して、DNA 配列決定ツールでスペルミスの「Michale Jacksun」を検索しようとしますか?入力データベースからの「Michael Jackson」