classification - ドキュメントおよび文レベルでのテキストの分類 (Quanteda および RTextTools を使用)

翻译自：https://stackoverflow.com/questions/46317325 2017-09-20T08:45:15.710

162 次

LexisNexis からダウンロードしたコーパスに RTextTools を使用してテキスト分類を適用する方法を見つけようとしています。

Quanteda パッケージを使用して LexisNexis N html ファイルをドキュメントフィーチャマトリックスに解析し、RTextTools を使用してそれらのファイル内のテキストを分類することに成功しました。

ただし、これらの N 個のテキストをドキュメントレベルだけでなく、文レベルでも分類できるようにしたいと考えています。これらの N 個のドキュメントを X 文からなる dfm に解析する方法が思いつきません。

さらに、トレーニングデータのほとんどの文は無関係であり、今後は分類されないと思います。RTextTools は、テストデータ内の無関係な文をどのように処理しますか?

0 に答える 0