問題:
「Billie Jean」と「Thriller」という 2 つの文字列があります。プログラムでそれらを比較し、それらがどれほど密接に関連しているかを調べる必要があります。どちらも同じアーティストの曲なので、"Brad Pitt" や "Jamaican Farewell" よりも高いスコア (確率、パーセンテージなど) を与えるはずです。
これを行う 1 つの方法は、WikipediaMiner という名前のオープン ソース Java ツールで、Wikipedia のデータ ダンプを使用して比較し、リンクや説明などを確認します。
質問:
Wikipepdia、DBpedia、Freebase、およびそれらのいとこの一部またはすべてを使用するか、別のアプローチを組み合わせる、より良い代替案を提案してください。有料の Web サービスよりも、ダウンロードしてサーバーにセットアップできるオープン ソース ソフトウェア (Apache Mahout など) を本当に好みます。