私のプロジェクトでは、2 つの問題に直面している一連のドキュメントのテキストの類似性を計算しようとしています。
以前に計算したドキュメントの用語頻度を再計算したくありません。たとえば、10 個のドキュメントがあり、10 個すべてのドキュメントの用語頻度と逆ドキュメント頻度を計算しました。次に、さらに2つのドキュメントを取得します。ここで、既存の 10 個のドキュメントの用語頻度を計算したくありませんが、入ってきた新しい 2 個の TF を計算し、12 個のドキュメントすべての TF を使用して、12 個のドキュメントの IDF を次のように計算します。全体。 既存のドキュメントの TF を再計算せずにすべてのドキュメントの IDF を計算する方法は?
ドキュメントの数が増える可能性があるため、インメモリ アプローチ (InMemoryBayesDatastore) の使用が煩雑になる可能性があります。私が望むのは、すべてのドキュメントのTFをHBASEテーブルに保存し、新しいドキュメントが到着したら、新しいドキュメントのTFを計算し、それらをHBASEテーブルに保存してから、このHBASEテーブルを使用してすべてのTFを取得することですIDF を計算するためのドキュメント。 HBase を使用して、データをシーケンス ファイルからフェッチする代わりに、Mahout の Text Similarity に提供するにはどうすればよいですか?