6

ブートストラップについての私の理解は、あなたが

  1. シーケンスのマトリックス(ヌクレオチドなど)から何らかのアルゴリズムを使用して「ツリー」を構築します。
  2. あなたはその木を保管します。
  3. 行列を 1 から摂動し、ツリーを再構築します。

私の質問は: シーケンス バイオインフォマティクスの観点から見た 3 の目的は何ですか? 元のマトリックスの文字を変更することで、データのアーティファクトを削除できると「推測」できますか? しかし、その推測には問題があります。なぜそのようなアーティファクトを削除する必要があるのか​​ わかりません。配列アラインメントは、その性質上、長い類似性を見つけることによってアーティファクトに対処することになっています。

4

2 に答える 2

6

系統発生学におけるブートストラップは、推定しようとしているもの (この場合はツリー) の品質を向上させません。これにより、元のデータセットから得られる結果にどの程度自信を持っているかがわかります。ブートストラップ分析は、「毎回異なるサンプル (ただしサイズは同じ) を使用してこの実験を何度も繰り返した場合、どのくらいの頻度で同じ結果が得られると予想されるか?」という質問に答えます。これは通常、エッジごとに分類されます (「推定されたツリーでこの特定のエッジがどのくらいの頻度で見られると予想されますか?」)。

サンプリング エラー

より正確に言えば、ブートストラップは、推定におけるサンプリング エラーの予想レベルをおおよそ測定する方法です。ほとんどの進化モデルには、データセットに無限の数のサイトがある場合、正しいツリーと正しいブランチの長さを復元することが保証されるという特性があります*。しかし、サイトの数が限られているため、この保証はなくなります。このような状況で推測できるのは、正しいツリーにサンプリング エラーを加えたものと見なすことができます。ここで、サンプル サイズ (サイトの数) を増やすと、サンプリング エラーは減少する傾向があります。知りたいのは、(たとえば) 1000 のサイトがあるとすると、エッジごとに予想されるサンプリング エラーの量です。

やりたいけどできないこと

元のツリーを推測するために 1000 サイトのアライメントを使用したとします。どういうわけか、すべての分類群について必要な数のサイトをシーケンスする能力があれば、それぞれからさらに 1000 のサイトを抽出し、このツリー推論を再度実行できます。元の木。毎回 1000 サイトの新しいバッチを使用して、これを何度も行うことができます。これを何度も行うと、結果としてツリーの分布が生成されます。これは推定値の標本分布と呼ばれます。一般に、真の木の近くで最も密度が高くなります。また、サンプルサイズ(サイト数)を増やすと、真のツリーに集中します。

この分布は何を教えてくれますか? この進化プロセスによって生成された 1000 のサイトの任意のサンプル (ツリー + ブランチの長さ + その他のパラメーター) が実際に真のツリーを提供する可能性がどのくらいあるか、つまり、元の分析についてどれだけ自信を持っているかを示します。 . 上で述べたように、この正しい答えを得る確率はエッジによって分類できます。これが「ブートストラップ確率」です。

代わりにできること

実際には、必要な数のアライメント列を魔法のように生成する機能はありませんが、元の 1000 サイトのセットを、新しいバッチを引き出すサイトのプールと見なすだけで、そのように "ふりをする" ことができます。各レプリケートの繰り返しで 1000 サイトの。これにより、通常、実際の 1000 サイトのサンプリング分布とは異なる結果の分布が生成されますが、サイト数が多い場合、近似は良好です。


* これは、データセットが実際にこのモデルに従って生成されたことを前提としています。これは、シミュレーションを行っていない限り、確実に知ることはできません。また、修正されていない倹約のような一部のモデルは、実際には逆説的な性質を持ち、特定の条件下ではサイトが多いほど、正しいツリーを復元する確率が低くなります!

于 2011-10-12T10:12:22.303 に答える
1

ブートストラップは、バイオインフォマティクス以外の用途を持つ一般的な統計手法です。これは、小さなサンプル、または複雑な母集団からのサンプルに対処するための柔軟な手段です(これはあなたのアプリケーションの場合だと思います)。

于 2011-10-12T02:26:49.940 に答える