2

私は膨大なコーパスを持っており、事前に知っている少数の用語の出現のみに関心があります。tmパッケージを使用してコーパスから用語ドキュメント マトリックスを作成する方法はありますか?

コーパスの結果の TermDocumentMatrix をサブセット化できることはわかっていますが、メモリ サイズの制約により、完全な用語ドキュメント マトリックスを最初から作成することは避けたいと考えています。

4

2 に答える 2

2

コーパスをフィルタリングする別の方法。まず、言語などのメタ部分に値を割り当てます。変数iを使用してコーパスの要素をループし、必要なものをチェックしてから、これらのメタ属性を使用してフィルタリングします。

corpusz[[i]]$meta["language"] <- 'tur'

idx <- meta(corpusz, "language") ==  'tur'
filtered <- corpusz[idx]

フィルタリングされたコーパス要素のみが含まれるようになりました。

于 2016-02-19T09:44:29.460 に答える