分類の問題があり、それを解決するための最良のアプローチを見つける必要があります。ドキュメント内のいくつかの文や段落にいくつかのタグが付けられている一連のトレーニング ドキュメントがあります。すべての文/段落にラベルが付いているわけではありません。文または段落には、複数のタグ/ラベルが含まれる場合があります。私がやりたいのは、モデルを作成することです。新しいドキュメントが与えられた場合、ドキュメント内の各文/段落に推奨されるラベルが表示されます。理想的には、可能性の高い提案のみを提供してくれます。
nltk NaiveBayesClassifier のようなものを使用すると、結果が悪くなります。これは、トレーニング ドキュメントからの「ラベルのない」文が考慮されていないためだと思います。これには、ラベルの付いた文と同様の単語やフレーズが多数含まれます。ドキュメントは本質的に法律/財務に関するものであり、分類モデルではそのほとんどを無視する必要がある法律/財務の専門用語でいっぱいです。
ナイーブ ベイズよりも優れた分類アルゴリズムはありますか、またはトレーニング セットからのラベル付きデータに加えて、ラベルのないデータをナイーブ ベイズにプッシュする方法はありますか?