私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。
基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキスト ファイルを使用して textmatrix を作成します。
残念ながら、textmatrix関数は、用語が含まれていないテキスト ファイルを検出するとエラーをスローします (たとえば、ストップ ワードを使用してフィルター処理した場合に発生する可能性があります)。
最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?
ティア!