1 つの単語に関連する単語 (具体的には物理的なオブジェクト) を見つけようとしています。例えば:
テニス: テニスラケット、テニスボール、テニスシューズ
スヌーカー: スヌーカー キュー、スヌーカー ボール、チョーク
チェス: チェス盤、チェスの駒
本棚: 本
私はWordNet、特にメロニムのセマンティック関係を使用しようとしました。ただし、以下の結果が示すように、この方法には一貫性がありません。
テニス:サーブ、ボレー、フットフォールト、セットポイント、リターン、アドバンテージ
スヌーカー:なし
Chess : チェスの動き、チェッカー盤
本棚: シェルフ
最終的には項の重み付けが必要になりますが、それは今のところあまり問題ではありません。
これを行う方法について何か提案はありますか?
ただの更新:ジェフとストンプチキンの両方の回答を組み合わせて使用することになりました。
ウィキペディアから得られる情報の質は優れており、具体的には (当然のことながら) 関連情報が非常に多くあります (「ブログ」や「iPod」などの用語が存在しない一部のコーパスと比較して)。
ウィキペディアからの結果の範囲は最良の部分です。このソフトウェアは、次のような用語を照合できます (簡潔にするためにリストを省略しています)。
- ゴルフ: [ボール、アイアン、ティー、バッグ、クラブ]
- 写真: [カメラ、フィルム、写真、アート、イメージ]
- 釣り: [魚、ネット、フック、トラップ、餌、ルアー、ロッド]
最大の問題は、特定の単語を物理的なアーティファクトとして分類することです。デフォルトの WordNet は、多くの用語 (「ipod」や「トランポリン」など) が存在しないため、信頼できるリソースではありません。