0

RI を使用すると、単一の CSV を取得して、最も一般的な 2 語または 3 語のフレーズを抽出できます。Google と Stackoverflow を検索してきましたが、これを行う簡単な方法が見つかりませんでした。

CSV を R に読み込む方法は知っていますが、データを適切なデータ型に抽出し、操作を実行して探しているものを取得する方法がわかりません。

要件:

  1. CSV から英数字以外のテキストをすべて削除する
  2. 同義語リストを使用して単語を置換する
  3. 意味のない単語を削除する (at、the など)
  4. 2 単語フレーズと 3 単語フレーズの両方の共通フレーズの数を取得します
  5. すべてのテキストを小文字にする

また、この種の分析に最適なデータ型は何ですか? データフレーム?TM? コーパス?等?

My_SRs <- read.csv("C:/example_folder/username/Documents/my_data.csv")

前もって感謝します!

4

1 に答える 1

0

tmパッケージ ( http://cran.r-project.org/web/packages/tm/tm.pdf ) は、探していることを実行します。

マニュアルから、ファイルをロードするには:

txt <- system.file("my_data.csv", control = list(removePunctuation = TRUE,
    removeNumbers = TRUE, tolower = TRUE, stopwords = TRUE)))

を作成しますcorpus

Corpus(DirSource(txt)

そこから、単語の頻度を提供するために、とを使用しTermDocumentMatrixたり、別のルートに移動したりできます。PlainTextDocumenttermFreq

于 2013-09-13T04:48:29.327 に答える