bioinformatics - FASTAアルゴリズムの説明

Question

データベース内のクエリシーケンスの類似シーケンスを検索する際のFASTAアルゴリズムの基本的な手順を理解しようとしています。アルゴリズムの手順は次のとおりです。

PAM250スコアマトリックスを使用する際の3番目と4番目のステップ、および「ギャップを使用して参加する」方法と混同しています。

誰かが私のためにこれらの2つのステップを「できるだけ具体的に」説明できますか。ありがとう

score 8 · Accepted Answer

FASTA の仕組みは次のとおりです。

すべての k の長さのアイデンティティを検索し、k ワードのアイデンティティを持つ密度の高い領域(つまり、多数の k ワード、その間にあまり多くのギャップがない) を選択することによって、局所的に類似した領域を見つけます。最良の 10 個の初期領域が使用されます。
最初の領域は、通常の方法で置換行列を適用することによって、その長さに沿って再スコアリングされます。最適なスコアリングのサブ領域が識別されます。
動的計画法を使用して、トリミングされた初期領域の配置を作成します。ギャップペナルティは 20 です。スコアが低すぎる領域は含まれません。
「バンド」動的計画法 (スミス-ウォーターマン) を使用して、3) から配置を最適化します。これは、元のアラインメントの周囲の 32 残基幅の帯域に制限された動的計画法であり、完全な動的計画法よりもスペースと時間を節約します。

3) でアラインメントを形成するのに不十分な初期領域がある場合、2) からの最高のスコアを使用して、類似性によって配列をランク付けできます。3) と 4) のスコアもその目的に使用できます。

残念ながら、私の機関は元の FASTA 論文にアクセスできないため、上記のさまざまなパラメーターの元の値を提供できません。

score 2 · Accepted Answer

説明は本質的に正しいですが、最終的なバンドの最適化は、ステップ 2 で見つかった 1 つの最適な非ギャップアラインメントに集中しています。ステップ 3 は、ステップ 4 を取得するシーケンスの選択における感度を向上させるために単純に使用されます。

2 に答える 2