python - コンテンツの類似性に応じて文書を格子状に並べる

Question

ドキュメントをスペース (複数のグリッドなど) に配置して、ドキュメントが配置されている位置に他のドキュメントとの類似性に関する情報が含まれるようにするにはどうすればよいでしょうか。K-means クラスタリングを調べましたが、データが大きい場合は計算量が少し多くなります。ドキュメントの内容をハッシュするようなものを探しています。これにより、ドキュメントが大きなスペースに収まるようになり、類似したドキュメントは同様のハッシュを持ち、それらの間の距離が短くなります。この場合、余分な作業をしなくても、特定のドキュメントに類似したドキュメントを簡単に見つけることができます。

結果は、下の図のようになります。この場合、音楽のドキュメントは映画のドキュメントに近く、コンピューターに関するドキュメントとはかけ離れています。ボックスはドキュメントの全世界と見なすことができます。

ここに画像の説明を入力

どんな助けでも大歓迎です。

ありがとう

jvc007

score 2 · Accepted Answer

類似性を維持しながら高次元データを低次元空間にマッピングする問題は、自己組織化マップ(SOM または Kohonen ネットワーク) を使用して解決できます。私はすでに文書に関するいくつかのアプリケーションを見てきました。

Python の実装については知りませんが (あるかもしれません)、Matlab (SOM ツールボックス) に適したものがあります。

score 0 · Accepted Answer

あなたが探しているのはlocality-sensitive hashingだと思います。素敵なグラフィカルな説明とサンプルコードについては、この回答を参照してください。

python - コンテンツの類似性に応じて文書を格子状に並べる

3 に答える 3

Related

Reference