リクエストのウィキペディアのカテゴリを取得しています
http://en.wikipedia.org/w/api.php?format=json&action=query&prop=categories&cllimit=5000&titles=request
私が次にやろうとしているのは、各カテゴリの説明記事を、すでに持っている文字列と比較して、どれが最も一致するかを見つけることです. セマンティックな意味を考慮して2つのテキスト間の類似性を計算するためのメトリックを見つけたいのですが、それを行うライブラリ、または文字列間のベクトル空間モデル距離を計算するライブラリを知っていますか?
たとえば、リクエストhttp://en.wikipedia.org/w/api.php?format=json&action=query&prop=categories&cllimit=5000&titles=Machine%20learning
は以下の配列を返します。各カテゴリの各記事を文字列と比較し、最も一致する記事を見つけたいと考えています。この場合はhttp://en.wikipedia.org/wiki/Machine_learning
7 番目の記事です。
[categories] => Array
(
[0] => Array
(
[ns] => 14
[title] => Category:All articles needing additional references
)
[1] => Array
(
[ns] => 14
[title] => Category:All articles with unsourced statements
)
[2] => Array
(
[ns] => 14
[title] => Category:Articles needing additional references from February 2013
)
[3] => Array
(
[ns] => 14
[title] => Category:Articles with unsourced statements from March 2013
)
[4] => Array
(
[ns] => 14
[title] => Category:Cybernetics
)
[5] => Array
(
[ns] => 14
[title] => Category:Learning
)
[6] => Array
(
[ns] => 14
[title] => Category:Learning in computer vision
)
[7] => Array
(
[ns] => 14
[title] => Category:Machine learning
)
)