RI を使用すると、単一の CSV を取得して、最も一般的な 2 語または 3 語のフレーズを抽出できます。Google と Stackoverflow を検索してきましたが、これを行う簡単な方法が見つかりませんでした。
CSV を R に読み込む方法は知っていますが、データを適切なデータ型に抽出し、操作を実行して探しているものを取得する方法がわかりません。
要件:
- CSV から英数字以外のテキストをすべて削除する
- 同義語リストを使用して単語を置換する
- 意味のない単語を削除する (at、the など)
- 2 単語フレーズと 3 単語フレーズの両方の共通フレーズの数を取得します
- すべてのテキストを小文字にする
また、この種の分析に最適なデータ型は何ですか? データフレーム?TM? コーパス?等?
My_SRs <- read.csv("C:/example_folder/username/Documents/my_data.csv")
前もって感謝します!