LexisNexis からダウンロードしたコーパスに RTextTools を使用してテキスト分類を適用する方法を見つけようとしています。
Quanteda パッケージを使用して LexisNexis N html ファイルをドキュメント フィーチャ マトリックスに解析し、RTextTools を使用してそれらのファイル内のテキストを分類することに成功しました。
ただし、これらの N 個のテキストをドキュメント レベルだけでなく、文レベルでも分類できるようにしたいと考えています。これらの N 個のドキュメントを X 文からなる dfm に解析する方法が思いつきません。
さらに、トレーニング データのほとんどの文は無関係であり、今後は分類されないと思います。RTextTools は、テスト データ内の無関係な文をどのように処理しますか?