タンパク質の二次構造予測にHMM(フォワード・バックワード・モデル)を使いたい。
基本的に、3 状態モデルが使用されます: 状態 = {H=アルファ ヘリックス、B=ベータ シート、C=コイル}
また、各状態の放出確率 pmf は 1 行 20 列 (20 アミノ酸の場合) です。
フォワード バックワード モデルでシーケンスの "トレーニング セット" を使用した後、期待値の最大化は、最適な遷移行列 (3 つの状態間の 3 行 3 列)、および各状態の放出確率 pmf に収束します。
遷移行列と放出確率の「正しい」値が決定されるシーケンスのデータセット(できれば非常に小さい)を知っている人はいますか。そのデータセットを Excel で使用して前方後方アルゴリズムを適用し、同じ結果が得られるかどうかを判断する自信をつけたいと思います。
そして、Excelよりも原始的でないものに移ります:o)