トークン化され、ngrams (unigrams、bigrams、trigrams、および fourgrams) を使用する dfmSparse オブジェクト (大、2.1GB) があり、それを列を持つデータ フレームまたはデータ テーブル オブジェクトに変換したいと考えています: Content および Frequency .
リストから外そうとしましたが、うまくいきませんでした。私はNLPの初心者で、使用方法がわかりません。アイデアがなく、ここでもGoogleでも解決策が見つかりませんでした。
データに関する情報:
>str(tokfreq)
Formal class 'dfmSparse' [package "quanteda"] with 11 slots
..@ settings :List of 1
.. ..$ : NULL
..@ weighting : chr "frequency"
..@ smooth : num 0
..@ ngrams : int [1:4] 1 2 3 4
..@ concatenator: chr "_"
..@ Dim : int [1:2] 167500 19765478
..@ Dimnames :List of 2
.. ..$ docs : chr [1:167500] "character(0).content" "character(0).content" "character(0).content" "character(0).content" ...
.. ..$ features: chr [1:19765478] "add" "lime" "juice" "tequila" ...
..@ i : int [1:54488417] 0 75 91 178 247 258 272 327 371 391 ...
..@ p : int [1:19765479] 0 3218 3453 4015 4146 4427 4637 140665 140736 142771 ...
..@ x : num [1:54488417] 1 1 1 1 5 1 1 1 1 1 ...
..@ factors : list()
>summary(tokfreq)
Length Class Mode
3310717565000 dfmSparse S4
ありがとう!
編集済み:これは、コーパスからデータセットを作成した方法です:
# tokenize
tokenized <- tokenize(x = teste, ngrams = 1:4)
# Creating the dfm
tokfreq <- dfm(x = tokenized)