4

単語の階層を構築する方法を探しています。

背景: 私は「アマチュア」の自然言語処理愛好家であり、現在関心を持っている問題の 1 つは、単語のグループから単語のセマンティクスの階層を決定することです。

たとえば、他の「スーパー」表現を含むセットがある場合、つまり

[cat, dog, monkey, animal, bird, ... ]

このセット内の他の単語を最も意味があり正確に表現する「動物」という単語を抽出できる手法を使用したいと考えています。

注: 意味は同じではありません。猫 != 犬 != 猿 != 動物 しかし、猫は動物の部分集合であり、犬は動物の部分集合です。

多くの人が私にワードネットを使うように言うでしょう。まあ、やってみますが、実際には、WordNet が適用されない非常にドメイン固有の領域を行うことに興味があります。1) ほとんどの単語は Wordnet にはありません。翻訳は可能ですが、効果は限定的です。

別の例は次のとおりです。

[ noise reduction, focal length, flash, functionality, .. ]

したがって、機能にはこのセットのすべてが含まれます。

また、ウィキペディアのページをクロールして、td-idf などにいくつかの手法を適用しようとしましたが、ウィキペディアのページもあまり効果がありません。

私の研究がどの方向に進むべきかについて、誰かが私を啓発することはできますか? (何でも使えます)

4

2 に答える 2

5

WordNet で上位語/下位語の関係のようなものを使用したいように見えますが、言語とドメイン固有のカバレッジの問題により、実際には WordNet を使用していませんか? つまり、ドメイン固有の上位語の関係がある場合、リスト内のすべての単語を含む最も近い親、またはリストの単語の 1 つに等しい最も近いノードを探すだけで、「スーパー」表現を取得できます。そして他のすべてを包含しました。

まず最初に、世界の主要な言語の多くでWordNet が実際に利用可能であることを指摘します。グローバル WordNetのリストを参照してください。

ドメイン固有のハイパーニムの関係を取得するには、Snow らのLearning syntactic patterns for automatic hypernym discoveryで紹介されている手法を使用できます。つまり、シードハイパーニムの小さなリストから始めて、それらを使用して分類器をトレーニングし、コーパス内のハイパーニムを検出することができます。次に、ドメイン固有のハイパーニム ペアのリストを作成するために、ドメインのデータに対してこの分類子を実行します。

于 2010-03-24T18:14:28.383 に答える
1

製品について何も知らなくても、製品の機能を表す言葉を決定するという点で、オピニオン マイニングと感情分析の人々は関連することを行っている可能性があります

これをどのように行うかについてのアイデアの簡単なスケッチです。私はその場で完全に作り上げました。名詞句と形容詞を見つけます。どの名詞句がどの形容詞に関連付けられているかを把握します。名詞句を説明するために使用される一連の形容詞に基づいて、名詞句をまとめます。動物は「毛むくじゃら」や「かわいい」などの形容詞で表現されるため、一緒に行動する傾向があります (特に、階層的クラスタリングがおそらく最も適切でしょう)。

これを試してうまくいった場合は、お知らせください。:)

于 2010-03-24T17:37:42.763 に答える