r - quanteda が corpusSource オブジェクトからコーパスを作成しない

Question

32 ビットの制限により 3Gb のみにアクセスできる 4Gb RAM を搭載した 32 ビットオペレーティングシステムで Windows 7 を使用しています。他のすべてをシャットダウンすると、開始前に約 1Gb がキャッシュされ、1Gb が使用可能であることがわかります。「空き」メモリはさまざまですが、0 の場合もあります。

quanteda の使用 - 157Mb の corpusSource オブジェクトを正常に作成する textfile() コマンドを使用して twitter.txt ファイルを読み込んでいます。corpus() コマンドを使用して「コーパス」に変換する次のステップを実行すると、R はそれを爆破し、すべて 0 を含む 4 つの要素を持つ非常に小さな空のファイルを作成します..... コードと出力は次のとおりです。

twitterfile <- "./final/en_US/en_US.twitter.txt" 

precorp <- textfile(twitterfile)
corp <- corpus(twitterprecorp)
summary(corp)

Corpus consisting of 1 document.

              Text Types Tokens Sentences
 en_US.twitter.txt     0      0         0

Source:  C:/R_Data/Capstone/* on x86 by xxxxx
Created: Thu Aug 18 06:32:01 2016
Notes:   

Warning message:
In nsentence.character(object, ...) :
  nsentence() does not correctly count sentences in all lower-cased text

….なぜこれが起こっているのかについての洞察はありますか?

score 0 · Accepted Answer

textfile()

ファイル全体に単一の要素を持つ文字ベクトルを提供しています。あなたはおそらく使いたい

readlines()

次のように:

precorp <- readlines(twitterfile)

これにより、ファイル内の各行の要素を持つ文字ベクトルが得られます。corpus() は、コーパスを作成するときに、ベクトルの各要素をドキュメントとして扱います。

r - quanteda が corpusSource オブジェクトからコーパスを作成しない

1 に答える 1

Related

Reference