1

ドキュメントをスペース (複数のグリッドなど) に配置して、ドキュメントが配置されている位置に他のドキュメントとの類似性に関する情報が含まれるようにするにはどうすればよいでしょうか。K-means クラスタリングを調べましたが、データが大きい場合は計算量が少し多くなります。ドキュメントの内容をハッシュするようなものを探しています。これにより、ドキュメントが大きなスペースに収まるようになり、類似したドキュメントは同様のハッシュを持ち、それらの間の距離が短くなります。この場合、余分な作業をしなくても、特定のドキュメントに類似したドキュメントを簡単に見つけることができます。

結果は、下の図のようになります。この場合、音楽のドキュメントは映画のドキュメントに近く、コンピューターに関するドキュメントとはかけ離れています。ボックスはドキュメントの全世界と見なすことができます。

ここに画像の説明を入力

どんな助けでも大歓迎です。

ありがとう

jvc007

4

3 に答える 3

2

類似性を維持しながら高次元データを低次元空間にマッピングする問題は、自己組織化マップ(SOM または Kohonen ネットワーク) を使用して解決できます。私はすでに文書に関するいくつかのアプリケーションを見てきました。

Python の実装については知りませんが (あるかもしれません)、Matlab (SOM ツールボックス) に適したものがあります。

于 2013-04-19T12:52:13.510 に答える
0

あなたが探しているのはlocality-sensitive hashingだと思います。素敵なグラフィカルな説明とサンプルコードについては、この回答を参照してください。

于 2013-04-19T13:56:58.277 に答える