r - tm で TermDocumentMatrix を作成するためにコーパス用語のサブセットのみを選択する方法

Question

私は膨大なコーパスを持っており、事前に知っている少数の用語の出現のみに関心があります。tmパッケージを使用してコーパスから用語ドキュメントマトリックスを作成する方法はありますか?

コーパスの結果の TermDocumentMatrix をサブセット化できることはわかっていますが、メモリサイズの制約により、完全な用語ドキュメントマトリックスを最初から作成することは避けたいと考えています。

score 2 · Accepted Answer

コーパスをフィルタリングする別の方法。まず、言語などのメタ部分に値を割り当てます。変数iを使用してコーパスの要素をループし、必要なものをチェックしてから、これらのメタ属性を使用してフィルタリングします。

corpusz[[i]]$meta["language"] <- 'tur'

idx <- meta(corpusz, "language") ==  'tur'
filtered <- corpusz[idx]

フィルタリングされたコーパス要素のみが含まれるようになりました。

2 に答える 2