ドキュメントをスペース (複数のグリッドなど) に配置して、ドキュメントが配置されている位置に他のドキュメントとの類似性に関する情報が含まれるようにするにはどうすればよいでしょうか。K-means クラスタリングを調べましたが、データが大きい場合は計算量が少し多くなります。ドキュメントの内容をハッシュするようなものを探しています。これにより、ドキュメントが大きなスペースに収まるようになり、類似したドキュメントは同様のハッシュを持ち、それらの間の距離が短くなります。この場合、余分な作業をしなくても、特定のドキュメントに類似したドキュメントを簡単に見つけることができます。
結果は、下の図のようになります。この場合、音楽のドキュメントは映画のドキュメントに近く、コンピューターに関するドキュメントとはかけ離れています。ボックスはドキュメントの全世界と見なすことができます。
どんな助けでも大歓迎です。
ありがとう
jvc007