0

私はテキスト分類について読んでいて、分類に利用できるいくつかの Java ツールを見つけましたが、まだ疑問に思っています: テキスト分類は文分類と同じですか?

文の分類に焦点を当てたツールはありますか?

4

1 に答える 1

5

「テキスト分類」と「文分類」の間に形式的な違いはありません。結局のところ、文はテキストの一種です。しかし、一般的に、人々がテキストの分類について話すとき、私見では、エッセイ、レビュー、スピーチなどのより大きなテキストの単位を意味します。政治家の演説を民主党か共和党かに分類することは、ツイートを分類するよりもはるかに簡単です。インスタンスごとに大量のテキストがある場合、提供できるすべての情報を得るために各トレーニング インスタンスを絞り込む必要はありません。

基本的に、既製の weka 分類子を文のコーパスに投入すると、必要なパフォーマンス数値が得られない可能性があります。POS タグ、解析ツリー、語順、ngram などを使用して、文のデータを補強する必要がある場合があります。また、作成時間、作成場所、文の作成者の属性など、関連するメタデータも取得します。正確に何を分類しようとしているのか..うまくいく機能は、目前の問題に対して直感的に意味のあるものである必要があります。

于 2012-04-18T20:37:00.357 に答える