テキスト内の名詞の合意機能を抽出する必要があるタスクを実行しています...次のような合意機能:
number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate
とにかくテキストからこれらの特徴を抽出することはありますか...。
テキスト内の名詞の合意機能を抽出する必要があるタスクを実行しています...次のような合意機能:
number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate
とにかくテキストからこれらの特徴を抽出することはありますか...。
コメントが示唆するように、データが英語の場合、名詞には個人情報が含まれないため、それを割り引くことができます。
他の人が言及しているように、数は簡単です。多くの品詞タガーは、単数名詞と複数名詞を区別します。
ジェンダーとアニマシーはもっと面白いです。英語では、これらは名詞の構文的特性ではなく意味論的特性です。たとえば、The princess is in the towerという文を考えてみましょう。プリンセスが女性的で生き生きとしているのは、抑揚情報のためではなく、言葉の意味を知っているからです. データの大きな古いコーパスを取得し、その中の代名詞と照応を分析することによって、オントロジーを構築することは可能です。アルゴリズムは、次のような例を探します。
王女は鏡で自分自身を見ます。
お姫様は塔にいます。彼女は悲しい。
王女が彼女自身と彼女の先行者であることが(どういうわけか)うまくいき、代名詞の既知の特性から名詞の特性を推測します。もちろん、問題は参照の解決になりますが、これは些細なことではありません。以下は、このテーマに関する最近のエジンバラ大学の講義コースからの参考文献です。