このサイトの回答から多くのことを学んだので (ありがとう!)、ついに私自身の質問をする時が来ました。
私は R (tm および lsa パッケージ) を使用して、約 15,000 のテキスト ドキュメントのコーパスを作成、クリーンアップ、簡素化し、LSA (潜在意味解析) を実行しています。Mac OS X 10.6 の R 3.0.0 でこれを行っています。
効率性のために (そして RAM が少なすぎることに対処するために)、tm の「PCorpus」(「filehash」パッケージでサポートされるバックエンド データベース サポート) オプション、または新しい「tm.plugin.dc」のいずれかを使用しようとしました。 ' いわゆる「分散型」コーパス処理のオプション)。しかし、ボンネットの下でどちらがどのように機能するかはよくわかりません。
tm_map で DCorpus を使用する明らかなバグ (現在は関係ありません) により、代わりに PCorpus オプションを使用して前処理作業の一部を行うようになりました。しかも何時間もかかります。そこで、R CMD BATCH を使用して、次のようなスクリプトを実行します。
> # load corpus from predefined directory path,
> # and create backend database to support processing:
> bigCcorp = PCorpus(bigCdir, readerControl = list(load=FALSE), dbControl = list(useDb = TRUE, dbName = "bigCdb", dbType = "DB1"))
> # converting to lower case:
> bigCcorp = tm_map(bigCcorp, tolower)
> # removing stopwords:
> stoppedCcorp = tm_map(bigCcorp, removeWords, stoplist)
ここで、この時点の直後にスクリプトがクラッシュしたとします。または、コーパスを別の形式でエクスポートするのを忘れて、R を再起動したとします。データベースはまだ私のハード ドライブにあり、適切に整理されたデータでいっぱいです。コーパス処理を続行するために、最初からやり直すのではなく、新しい R セッションに再読み込みできますか?
それはヌードルの質問のように感じます...しかし、dbInit()またはdbLoad()または「PCorpus()」関数のバリエーションの量は機能していないようです。誰か正しい呪文を知っていますか?
私はすべての関連ドキュメント、および見つけられるすべての紙と Web フォーラムを精査しましたが、完全に空白です - 誰もそれを行っていないようです. それとも私はそれを逃しましたか?