単語の階層を構築する方法を探しています。
背景: 私は「アマチュア」の自然言語処理愛好家であり、現在関心を持っている問題の 1 つは、単語のグループから単語のセマンティクスの階層を決定することです。
たとえば、他の「スーパー」表現を含むセットがある場合、つまり
[cat, dog, monkey, animal, bird, ... ]
このセット内の他の単語を最も意味があり正確に表現する「動物」という単語を抽出できる手法を使用したいと考えています。
注: 意味は同じではありません。猫 != 犬 != 猿 != 動物 しかし、猫は動物の部分集合であり、犬は動物の部分集合です。
多くの人が私にワードネットを使うように言うでしょう。まあ、やってみますが、実際には、WordNet が適用されない非常にドメイン固有の領域を行うことに興味があります。1) ほとんどの単語は Wordnet にはありません。翻訳は可能ですが、効果は限定的です。
別の例は次のとおりです。
[ noise reduction, focal length, flash, functionality, .. ]
したがって、機能にはこのセットのすべてが含まれます。
また、ウィキペディアのページをクロールして、td-idf などにいくつかの手法を適用しようとしましたが、ウィキペディアのページもあまり効果がありません。
私の研究がどの方向に進むべきかについて、誰かが私を啓発することはできますか? (何でも使えます)