ドキュメント クラスタリングの問題に取り組んでいます。そのためには、ドキュメントのデータセットの単語頻度を取得する必要があります。
現時点では、簡単なアプローチを使用しています。単語テーブルを作成し、データセットに含まれるドキュメントの数と同じ数の列を追加して、次のようなものを取得します
word | document1 | document2 | ... | document n |
このアプローチは、多少遅くても、小さなデータセット (100 個未満のドキュメントを含む) で機能します。問題は、それぞれ 700 以上のドキュメントを含む巨大なドキュメントを処理する必要があることです。これを処理するためのよりスマートな方法が必要であると感じています。問題は、他に何も考えられないことです。
問題は、ドキュメントごとの単語の頻度を効率的に追跡するにはどうすればよいかということです。
PS: ドキュメントあたりの単語数またはデータセットのサイズはどちらも不明ですが、合理的な上限はドキュメントあたり 2000 語、データセットあたり 2000 ドキュメントであると考えてください。