7

データベース内のクエリシーケンスの類似シーケンスを検索する際のFASTAアルゴリズムの基本的な手順を理解しようとしています。アルゴリズムの手順は次のとおりです。

  1. IとJの間の一般的なk-wordを特定する
  2. k語の一致で対角線をスコアリングし、10個の最良の対角線を特定します
  3. 置換スコアマトリックスを使用して初期領域を再スコアリングします
  4. ギャップを使用して初期領域を結合し、ギャップにペナルティを課します
  5. 動的計画法を実行して、最終的な配置を見つけます

PAM250スコアマトリックスを使用する際の3番目と4番目のステップ、および「ギャップを使用して参加する」方法と混同しています。

誰かが私のためにこれらの2つのステップを「できるだけ具体的に」説明できますか。ありがとう

4

2 に答える 2

8

FASTA の仕組みは次のとおりです。

  1. すべての k の長さのアイデンティティを検索し、k ワードのアイデンティティを持つ密度の高い領域(つまり、多数の k ワード、その間にあまり多くのギャップがない) を選択することによって、局所的に類似した領域を見つけます。最良の 10 個の初期領域が使用されます。
  2. 最初の領域は、通常の方法で置換行列を適用することによって、その長さに沿って再スコアリングされます。最適なスコアリングのサブ領域が識別されます。
  3. 動的計画法を使用して、トリミングされた初期領域の配置を作成します。ギャップ ペナルティは 20 です。スコアが低すぎる領域は含まれません。
  4. 「バンド」動的計画法 (スミス-ウォーターマン) を使用して、3) から配置を最適化します。これは、元のアラインメントの周囲の 32 残基幅の帯域に制限された動的計画法であり、完全な動的計画法よりもスペースと時間を節約します。

3) でアラインメントを形成するのに不十分な初期領域がある場合、2) からの最高のスコアを使用して、類似性によって配列をランク付けできます。3) と 4) のスコアもその目的に使用できます。

残念ながら、私の機関は元の FASTA 論文にアクセスできないため、上記のさまざまなパラメーターの元の値を提供できません。

于 2011-12-03T09:57:54.303 に答える
2

説明は本質的に正しいですが、最終的なバンドの最適化は、ステップ 2 で見つかった 1 つの最適な非ギャップ アラインメントに集中しています。ステップ 3 は、ステップ 4 を取得するシーケンスの選択における感度を向上させるために単純に使用されます。

元の論文はここで見ることができます: http://faculty.virginia.edu/wrpearson/papers/pearson_lipman_pnas88.pdf

于 2012-03-02T13:36:45.260 に答える