1

Wekaで文章を分類したい。私の特徴は、文の用語(単語)と各用語の品詞タグです。各用語が1つの特徴として提示されると、各インスタンス(文)の特徴の数が異なるため、図の属性がどのようになっているのかわかりません。また、文中のすべての単語が1つの機能として表示される場合、単語とその品詞タグをどのように関連付けるか。

どのように進めるべきかアイデアはありますか?

4

1 に答える 1

1

質問を正しく理解すると、答えは次のようになります。文中の位置とは関係なく単語を扱い、その文に既知の各単語が出現する回数で特徴空間内の文を表すのが最も一般的です。つまり、通常、トレーニングデータに存在する単語ごとに個別の数値機能があります。または、n-gramを使用する場合は、トレーニングデータのn-gramごとに個別の機能を使用します(頻度のしきい値がある場合もあります)。

POSタグについては、個別の機能として使用するのが理にかなっている場合がありますが、関心のある分類が文型(構文)に関係している場合に限ります。それ以外の場合は、POSタグを単語に追加するだけで、さまざまな品詞を表す可能性のある単語の曖昧さを部分的に解消できます。

于 2012-09-07T12:22:23.510 に答える