問題タブ [sequence-alignment]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - Biopython は系統樹のルートをどのように決定しますか?
ルート化されていないツリーを構築し、 outgroup を明示的に指定することでルート化できるようにする他のパッケージ、特にape for R があります。
対照的に、BioPython ではルートを指定せずにルート付きツリーを直接作成できるため、たとえば次のコードからルートがどのように決定されているのか気になります。
ツリーが構築された後にここでシーケンスを作成しましたが、それでもこれはそのプロセスから構築された根付きツリーです。
python - ストリング長が等しくない複数の配列アラインメント
さまざまな長さの 3 ~ 1000 の短い (10 ~ 20bp) ヌクレオチド (「ATCG」) リードからコンセンサス シーケンスを作成する方法論が必要です。
簡単な例:
のコンセンサス配列が得られるはずです"AGGGGC"
。
BioPython ライブラリで複数配列アラインメント (MSA) を実行するモジュールを見つけましたが、同じ長さの配列に対してのみです。また、任意の長さの 2 つのシーケンスに対する Smith-Waterman スタイルのアラインメントにも精通しています (実装しています)。これらの要素を組み合わせたライブラリまたは実装 (不等長の MSA) が必要だと思いますが、何時間にもわたって Web やさまざまなドキュメントを精査した後、何も見つかりませんでした。
これを行うパイプラインに組み込むことができる既存のモジュール/ライブラリ (Python を推奨) またはプログラムに関するアドバイスはありますか?
ありがとう!
python - 独自のアルファベットを定義し、biopython で MultipleSequenceAlignment を実行する
Biopython で MultipleSequenceAlignment を実行したいのですが、自己定義のアルファベットを使用します。背景は次のとおりです。私のシーケンスは数値状態のシーケンスであり、最大 5000 の状態があります。したがって、「0001」、「0042」、「4999」など、5000 文字のアルファベットが必要です。これらのシーケンスは、最大 50 州/文字の長さです。
だから私の主な質問は次のとおりです。
- そのようなアルファベットをどのように定義できますか?
- MultipleSequenceAlignment でこのアルファベットを使用するにはどうすればよいですか?
あるいは、シーケンスの代わりにリスト/配列で MultipleSequenceAlignment を実行することは可能ですか?
時間とヘルプをありがとう!
python - BioPython AlignIO ValueError は、文字列は同じ長さでなければならないと言いますか?
入力 fasta 形式のテキスト ファイル:
エラー:
ClustalOmega では異なる長さのシーケンスをアラインできるため、入力シーケンスは同じ長さである必要はありません。
これも機能しません...同じエラーが発生します:
BioPython に精通している人は、これを回避して fasta ファイルからシーケンスを整列させる方法を知っていますか?
nlp - シーケンス アラインメント アルゴリズムを使用した NER の構築
背景:配列アラインメント に関するウィキペディアのページでは、DNA 配列アラインメント アルゴリズムは自然言語処理にも使用できると述べています。
質問: Named Entity Recognizer と DNA シーケンス ライブラリはどちらも近似文字列マッチングを行うため、DNA シーケンス ライブラリ ( Bowtieなど) を使用して NER を構築することは実用的ですか?
既存の NER オープン ソースを使用せず、DNA シーケンス ライブラリを使用して NER を構築する理由の 1 つは、私の NER で「スペルミスの修正」を自動的に取得できるようにするためです。
上記の私の仮定が理にかなっている場合 - DNA 配列ではなく有名人の名前のデータベースを入力できるオンライン DNA 配列決定ツールがあり、それが一致することを期待して、DNA 配列決定ツールでスペルミスの「Michale Jacksun」を検索しようとしますか?入力データベースからの「Michael Jackson」