1

Ukkonen の論文の手順を変更して、単語がテキストに出現する回数の値を保持するにはどうすればよいですか。文字列の頻度も提供する実装はありますか?

私が望む変更は、文字列「hehe」のようなものです。すべての「h」、「e」、「he」の頻度カウントは、ツリー内で 2 にする必要があります。レスト ノードのデフォルト値は 1 です。

これまでで最高のようなライブラリと、このような以前の質問がいくつか見つかりました。

しかし、どれも私の問題に対する十分な解決策を説明していません。また、非常に大きな辞書ファイル (約 10 億語) を処理する必要があります。次に、アルゴリズムは非常に高速である必要があります。そして、私はスペースについて少し妥協する準備ができています.

4

1 に答える 1

2

答えはここにあります:部分文字列の数を数える

基本的に、サフィックス ツリーを構築し、ルートから始まる部分文字列を照合し、そのポイントより下のリーフ ノードを数えます。それは、単語がテキストに出現する回数です。

于 2013-11-16T22:04:55.777 に答える