tree - ノードがテキスト文字列に出現する回数を保持するように一般化サフィックスツリーを変更する

Question

Ukkonen の論文の手順を変更して、単語がテキストに出現する回数の値を保持するにはどうすればよいですか。文字列の頻度も提供する実装はありますか?

私が望む変更は、文字列「hehe」のようなものです。すべての「h」、「e」、「he」の頻度カウントは、ツリー内で 2 にする必要があります。レストノードのデフォルト値は 1 です。

これまでで最高のようなライブラリと、このような以前の質問がいくつか見つかりました。

しかし、どれも私の問題に対する十分な解決策を説明していません。また、非常に大きな辞書ファイル (約 10 億語) を処理する必要があります。次に、アルゴリズムは非常に高速である必要があります。そして、私はスペースについて少し妥協する準備ができています.

score 2 · Accepted Answer

基本的に、サフィックスツリーを構築し、ルートから始まる部分文字列を照合し、そのポイントより下のリーフノードを数えます。それは、単語がテキストに出現する回数です。

tree - ノードがテキスト文字列に出現する回数を保持するように一般化サフィックス ツリーを変更する