Twitterハッシュタグを有限セットからトピック/カテゴリに分類するパブリックAPIまたはJavaライブラリはありますか?
ハッシュタグに基づいて、各 Twitter 投稿のトピックを見つける必要があります。例えば:
/#FIFA12 は、この投稿を VIDEO_GAMES/GAMES または ENTERTAINMENT などに分類します。
Twitterハッシュタグを有限セットからトピック/カテゴリに分類するパブリックAPIまたはJavaライブラリはありますか?
ハッシュタグに基づいて、各 Twitter 投稿のトピックを見つける必要があります。例えば:
/#FIFA12 は、この投稿を VIDEO_GAMES/GAMES または ENTERTAINMENT などに分類します。
これを行うためのAPIはわかりませんが、1つの方法は、ウィキペディアのタイトルにマップされるハッシュタグを調べることです。例:ウィキペディアには「FIFA12」というタイトルがあります(別のページにリダイレクトされます)。あいまいな文字列を除けば、多数のハッシュタグをウィキペディアのタイトルにマッピングできるはずです。
タイトルを取得したら、ウィキペディアのグラフをトラバースして、親子カテゴリの関係を取得できます。たとえば、FIFA12は、ウィキペディアで次のカテゴリに分類されています。
2011 video games
Electronic Arts games
EA Sports games
PlayStation 2 games
PlayStation 3 games
PlayStation Portable games
IOS games
Xbox 360 games
Wii games
Nintendo 3DS games
Windows games
Video games developed in Canada
Association football video games
Sports video games with career mode
Video games set in 2011
これらの各カテゴリには、より多くの親がいます。例:「2011年のビデオゲーム」には両親がいます
2011 works
21st-century video games
2011 in video gaming
2011 software
おそらく、幅優先探索の各レベルでしきい値(たとえば、2 +)のある「多数決」を使用して、分析する必要のあるノードの数を減らすことができます。ある時点で、停止するヒューリスティックを思い付くことができます。たとえば、カテゴリ「ビデオゲーム」はFIFA12から3ホップ離れており、複数のパスを介して到達できます。最適なヒューリスティックを考え出すことは簡単ではありませんが、ここにはかなりの低ぶら下がっている果物があります。