1

こんにちは私は、ドキュメント分類に決定木を使用することが可能であるかどうかを知りたいと思いました。そうであれば、データ表現はどのようにすべきですか?デシジョンツリーにRパッケージパーティを使用していることを知っています。

4

3 に答える 3

2

このホワイト ペーパーでは、さまざまなテキスト分類手法とその精度について概説します。つまり、決定木を使用してテキストを分類できますが、はるかに優れたアルゴリズムが他にもあります。

Sebastiani、F.(2002)。自動テキスト分類における機械学習。ACM コンピューティング調査、cs.IR/0110053v1。http://arxiv.org/abs/cs.IR/0110053v1から入手できます。

于 2010-06-30T01:10:26.627 に答える
2

1 つの方法は、各行がドキュメントで、各列が単語である巨大な行列を作成することです。セル内の値は、その単語がその文書に表示された回数です。

次に、「教師あり学習」のケースを扱っている場合は、分類器用に別の列が必要です。そこから、「rpart」(rpart パッケージから) などのコマンドを使用して、分類ツリーを作成できます。このコマンドは、線形モデル (lm) と同様の方法で、rpart に式を入力します。

必要に応じて、最初に単語を「単語のグループ」にグループ化してから、各列を異なる単語のグループに属させ、ドキュメント内のそのグループに属する単語の数を数字で示すこともできます。そのためには、「tm」パッケージを見てください。(それで何かをすることになった場合は、ここに投稿することを検討してください。そうすれば、そこから学ぶことができます)

ベスト、タル

于 2010-06-25T06:25:11.873 に答える
0

少なくとも一般的に定義されているように、デシジョン ツリーは単一の基準を使用してサブブランチを指定します。文書を分類する際、単一の基準に基づいて何かを行うことはめったにありません。複数の基準が必要であり、その場合でも明確なツリーのような決定は得られませんが、「これは、他のこと」のような結果。

于 2010-06-25T00:02:51.857 に答える