data-mining - 2 つの文字列を比較して、意味がどれだけ密接に関連しているかを調べます

Question

問題:
「Billie Jean」と「Thriller」という 2 つの文字列があります。プログラムでそれらを比較し、それらがどれほど密接に関連しているかを調べる必要があります。どちらも同じアーティストの曲なので、"Brad Pitt" や "Jamaican Farewell" よりも高いスコア (確率、パーセンテージなど) を与えるはずです。

これを行う 1 つの方法は、WikipediaMiner という名前のオープンソース Java ツールで、Wikipedia のデータダンプを使用して比較し、リンクや説明などを確認します。

質問:
Wikipepdia、DBpedia、Freebase、およびそれらのいとこの一部またはすべてを使用するか、別のアプローチを組み合わせる、より良い代替案を提案してください。有料の Web サービスよりも、ダウンロードしてサーバーにセットアップできるオープンソースソフトウェア (Apache Mahout など) を本当に好みます。

score 0 · Accepted Answer

「スリラー」が曲であり、ミュージックビデオや映画のジャンル、ラムチョップのアルバムではないことは、追加のコンテキストなしではわかりません。

アイテムが何であるかを特定した後は、Freebase、MusicBrainz、または使用している他の情報ソースの接続のグラフを「単に」トラバースするだけです。

ただし、スコアリングのために物事をどのように重み付けするかを決定する必要があります。2つのマイケルジャクソンの曲は、同じタイプを共有しているため、より密接に関連していますか、それとも、アーティストのマイケルジャクソンと直接関係しているため、より密接に関連していますか？

score 0 · Accepted Answer

それはプログラミングの問題ではなく、データの問題です。

したがって、これは実際には StackOverflow の問題ではありません。

あなたが本当に望んでいるのは、私が推測するWordNetを使用することです。これは、単語の意味を推論するためのデータベースとして実際に意図されています。たとえば、データは、データマイニングがデータ処理の一形態であることを明示的に示しています。そして、どれが物理的な存在...

ほら、推論はあなたのデータと同じくらい良いものになるでしょう.

DBPedia には、WordNet から Wikipedia へのマッピングも含まれている可能性があります。

data-mining - 2 つの文字列を比較して、意味がどれだけ密接に関連しているかを調べます

2 に答える 2

Related

Reference