0

問題:
「Billie Jean」と「Thriller」という 2 つの文字列があります。プログラムでそれらを比較し、それらがどれほど密接に関連しているかを調べる必要があります。どちらも同じアーティストの曲なので、"Brad Pitt" や "Jamaican Farewell" よりも高いスコア (確率、パーセンテージなど) を与えるはずです。

これを行う 1 つの方法は、WikipediaMiner という名前のオープン ソース Java ツールで、Wikipedia のデータ ダンプを使用して比較し、リンクや説明などを確認します。

質問:
Wikipepdia、DBpedia、Freebase、およびそれらのいとこの一部またはすべてを使用するか、別のアプローチを組み合わせる、より良い代替案を提案してください。有料の Web サービスよりも、ダウンロードしてサーバーにセットアップできるオープン ソース ソフトウェア (Apache Mahout など) を本当に好みます。

4

2 に答える 2

0

「スリラー」が曲であり、ミュージックビデオや映画のジャンル、ラムチョップのアルバムではないことは、追加のコンテキストなしではわかりません。

アイテムが何であるかを特定した後は、Freebase、MusicBrainz、または使用している他の情報ソースの接続のグラフを「単に」トラバースするだけです。

ただし、スコアリングのために物事をどのように重み付けするかを決定する必要があります。2つのマイケルジャクソンの曲は、同じタイプを共有しているため、より密接に関連していますか、それとも、アーティストのマイケルジャクソンと直接関係しているため、より密接に関連していますか?

于 2013-01-10T08:24:35.283 に答える
0

それはプログラミングの問題ではなく、データの問題です。

したがって、これは実際には StackOverflow の問題ではありません。

あなたが本当に望んでいるのは、私が推測するWordNetを使用することです。これは、単語の意味を推論するためのデータベースとして実際に意図されています。たとえば、データは、データマイニングがデータ処理の一形態であることを明示的に示しています。そして、どれが物理的な存在...

ほら、推論はあなたのデータと同じくらい良いものになるでしょう.

DBPedia には、WordNet から Wikipedia へのマッピングも含まれている可能性があります。

于 2013-01-09T09:21:01.237 に答える