r - RのLSAパッケージのtextmatrix関数でエラーを回避する方法

Question

私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。

基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキストファイルを使用して textmatrix を作成します。

残念ながら、textmatrix関数は、用語が含まれていないテキストファイルを検出するとエラーをスローします (たとえば、ストップワードを使用してフィルター処理した場合に発生する可能性があります)。

最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?

ティア！

score 1 · Accepted Answer

空のファイルを無視する方法がわかりません。私が使用した一種の回避策は、まだコーパスにない単語をすべてのファイルに追加することです。

利点:

不利益：

（注：私が考えていない欠点があるかもしれません。）

1 に答える 1