7

分類の問題があり、それを解決するための最良のアプローチを見つける必要があります。ドキュメント内のいくつかの文や段落にいくつかのタグが付けられている一連のトレーニング ドキュメントがあります。すべての文/段落にラベルが付いているわけではありません。文または段落には、複数のタグ/ラベルが含まれる場合があります。私がやりたいのは、モデルを作成することです。新しいドキュメントが与えられた場合、ドキュメント内の各文/段落に推奨されるラベルが表示されます。理想的には、可能性の高い提案のみを提供してくれます。

nltk NaiveBayesClassifier のようなものを使用すると、結果が悪くなります。これは、トレーニング ドキュメントからの「ラベルのない」文が考慮されていないためだと思います。これには、ラベルの付いた文と同様の単語やフレーズが多数含まれます。ドキュメントは本質的に法律/財務に関するものであり、分類モデルではそのほとんどを無視する必要がある法律/財務の専門用語でいっぱいです。

ナイーブ ベイズよりも優れた分類アルゴリズムはありますか、またはトレーニング セットからのラベル付きデータに加えて、ラベルのないデータをナイーブ ベイズにプッシュする方法はありますか?

4

2 に答える 2

3

既存のアプローチを少し変更するために私が行うことは次のとおりです。各文について、可能なタグごとに単一の分類器をトレーニングします。そのタグを表現していないすべての文をタグの否定的な例として含めます(これにより、ラベルのない例が暗黙的にカウントされます)。新しいテスト センテンスの場合、n 個の分類器をすべて実行し、新しいセンテンスのラベルとして、あるしきい値を超えるスコアを付けたクラスを保持します。

おそらくナイーブベイズ以外のものを使用するでしょう。ロジスティック回帰 (MaxEnt) は、確率的なものが必要な場合は当然の選択です。確率を気にしない場合、SVM は非常に強力です (現時点では気にしないと思います)。

これは実際にはシーケンスのラベル付けタスクであり、理想的には近くの文からの予測も折り畳むことになります...しかし、私の知る限り、CRF/StructSVM またはインスタンスに複数のラベルを持たせる他のシーケンス タグ付けアプローチへの原則的な拡張はありません。

于 2013-09-23T10:54:48.110 に答える
1

ラベルのないデータをナイーブベイにプッシュする方法はありますか

「ラベル付けされた」データと「ラベル付けされていない」データの間に区別はありません.Naive Bayesは特に単純な条件付き確率を構築するP(label|attributes)ためP(no label|attributes)、使用される処理パイプラインに大きく基づいていますが、ラベル付けされていない部分を実際に無視することは非常に疑わしい. 何らかの理由でそのようになり、コードを変更したくない場合は、残りのすべてのテキスト セグメントに人為的なラベル「ラベルなし」を導入することもできます。

Naive Bayes よりも優れた分類アルゴリズムはありますか?

はい、実際、NB は最も基本的なモデルであり、テキストのタグ付けでより良い結果を達成する、より優れた (より強力で、より一般的な) モデルが多数あります。

  • 隠れマルコフ モデル (HMM)
  • 条件付きランダム フィールド (CRF)
  • 一般に -確率的グラフィカルモデル (PGM)
于 2013-09-19T21:02:07.157 に答える