2

タンパク質の二次構造予測にHMM(フォワード・バックワード・モデル)を使いたい。

基本的に、3 状態モデルが使用されます: 状態 = {H=アルファ ヘリックス、B=ベータ シート、C=コイル}

また、各状態の放出確率 pmf は 1 行 20 列 (20 アミノ酸の場合) です。

フォワード バックワード モデルでシーケンスの "トレーニング セット" を使用した後、期待値の最大化は、最適な遷移行列 (3 つの状態間の 3 行 3 列)、および各状態の放出確率 pmf に収束します。

遷移行列と放出確率の「正しい」値が決定されるシーケンスのデータセット(できれば非常に小さい)を知っている人はいますか。そのデータセットを Excel で使用して前方後方アルゴリズムを適用し、同じ結果が得られるかどうかを判断する自信をつけたいと思います。

そして、Excelよりも原始的でないものに移ります:o)

4

1 に答える 1

0

これを行う最善の方法は、おそらく、決定した分布から独自のシミュレートされたデータを作成することです。次に、プログラムを実行して、パラメーター推定が既知のパラメーターに収束するかどうかを確認します。

あなたの場合、これには、状態から状態へと既知の任意の確率 (たとえば、P(Helix to Chain)=0.001) で変化するマルコフ連鎖を記述し、確率でアミノ酸を放出することが含まれます (たとえば、P(メチオニン)=0.11)。ステップごとに、状態と放出を出力します。その後、事後確率が各サイトの状態に近づくのを見ることができます。

HMM を実行すると、適切な分布に収束するはずなので、これらを好きなだけ任意にすることができます。

幸運を!

于 2015-04-08T21:01:47.707 に答える