5

Stanford POS tagger を使って POS タグ文を取得してもらいました。例えば:

/ DT島 / NN だった / VBD とても / RB 綺麗 / JJ . /. I/PRP 愛/VBP それ/PRP ./.

(xml形式も可)

この POS タグの文章から特徴選択を行い、機械学習手法を使用してテキスト分類用の特徴ベクトルに変換する方法を説明できる人はいますか。

4

1 に答える 1

4

開始する簡単な方法は、次のようなものです (分類アルゴリズムにとって語順は重要ではないと仮定します)。

最初に、いくつかの文を手動で分類します。これがトレーニング データセットです。一般に、各クラスから手動で分類するセンテンスが多いほど、精度が高くなります。このような教師ありアプローチの場合、選択される唯一の特徴は、手動で分類された文からのものになることに注意してください。あなたの特徴は、すべてのトレーニング文の単語/POS のそれぞれの固有の組み合わせです。

最後に、特徴選択アルゴリズムを選択する必要があります。そこにはたくさんありますが、人気のあるものはカイ二乗です。他には、情報ゲイン、相互情報などがあります。カイ二乗を使用して、各機能に対するクラス変数の依存性を個別に測定します。カイ二乗値が最も低い上位 10% の特徴など、いくつかのしきい値を選択し、これらの特徴のみを保持して、後で分類子で使用します。

特徴選択アルゴリズムの選択は重要であり、使用しているアルゴリズムを反映する必要があります。たとえば、カイ 2 乗は、クラスに正と負の両方の相関がある特徴を見つけたい場合に適しています。他の状況では、正の相関がある特徴のみが必要な場合があるため、別のアルゴリズムを選択するか、既存のアルゴリズムを変更する必要があります。

お役に立てば幸いです、ウィリアム・ライリー・ランド

于 2011-08-04T19:41:44.730 に答える