1

私はこの Kaggle コンペティションに参加していますが、RのLSA パッケージのtextmatrix関数に詳しい人がいるかどうか疑問に思っています。

基本的に、textmatrix関数はディレクトリを引数として受け入れ、指定されたディレクトリ内で見つかったすべてのテキスト ファイルを使用して textmatrix を作成します。

残念ながら、textmatrix関数は、用語が含まれていないテキスト ファイルを検出するとエラーをスローします (たとえば、ストップ ワードを使用してフィルター処理した場合に発生する可能性があります)。

最終的に用語がゼロになるファイルをtextmatrix に無視させる簡単な方法を知っている人はいますか? または、これらのファイルを特定して削除する比較的迅速な方法はありますか?

ティア!

4

1 に答える 1

1

空のファイルを無視する方法がわかりません。私が使用した一種の回避策は、まだコーパスにない単語をすべてのファイルに追加することです。

利点:

  • すべてのファイルには少なくとも 1 つの単語が含まれているため、失敗することtextmatrixはありません
  • すべてのファイルに同じ単語が含まれていても、個々のドキュメントの関連性には影響しません
  • textmatrix による単語数は、元のドキュメントの単語数よりも 1 多いことがわかっています。

不利益:

  • 各ファイルは、すべて 1 つの単語を共有しているため、他のすべてのファイルと少し似ています。

(注:私が考えていない欠点があるかもしれません。)

于 2013-03-27T15:03:04.930 に答える