0

URI で表されるデータを含むデータセットがあります。シーケンシャル データからデータ サンプルの先行者と後続者を予測できるデータをモデル化したいと考えています。データセットは次のようになります。 順次データセット

たとえば、「HTTP://example.com/112」が指定された場合、モデルは「HTTP://example.com/296」を先行として生成し、「HTTP://example.com/322」を後続として生成します。前述の結果を得るために、このデータセットのマルコフ決定プロセス モデルを構築したいと思います。Python に適したパッケージを見つけるのを手伝ってくれる人がいれば、それは素晴らしいことです。隠れマルコフモデルを実装できる「hmmlearn」パッケージを確認しました。しかし、私のデータには隠し状態がありません。また、これらのデータを数値データに変換する必要があるかどうかもわかりません。その後、マルコフ モデルを構築できます。

前もって感謝します!

4

1 に答える 1

0

隠れ状態がない場合、マルコフ連鎖があります。自分で実装するのは難しくありませんが、ライブラリが必要な場合は、ザクロがあります。

from pomegranate import MarkovChain
#say you have two sequences of clicks:
sequences = [['uri1', 'uri5', 'uri3', 'uri5'], ['uri2', 'uri3', 'uri1', 'uri2']]
model = MarkovChain.from_samples(sequences)

学習遷移確率:

print(model.distributions[1])
uri5    uri5    0.0
uri5    uri3    1.0
uri5    uri1    0.0
uri5    uri2    0.0
uri3    uri5    0.5
uri3    uri3    0.0
uri3    uri1    0.5
uri3    uri2    0.0
uri1    uri5    0.5
uri1    uri3    0.0
uri1    uri1    0.0
uri1    uri2    0.5
uri2    uri5    0.0
uri2    uri3    1.0
uri2    uri1    0.0
uri2    uri2    0.0
于 2020-12-01T09:33:45.197 に答える