r - Rテキストファイルとテキストマイニング・・・データの読み込み方

Question

R パッケージを使用しておりtm、テキストマイニングを行いたいと考えています。これは 1 つのドキュメントであり、単語の袋として扱われます。

テキストファイルをロードする方法と、次のような機能の使用を開始するために必要なオブジェクトを作成する方法に関するドキュメントがわかりません。

stemDocument(x, language = map_IETF(Language(x)))

したがって、これが私のドキュメントであると仮定すると、「これは R 負荷のテストです」

テキスト処理用のデータをロードしてオブジェクト x を作成するにはどうすればよいですか?

score 7 · Accepted Answer

readPlain同じライブラリの関数をそのまま使用することはできませんか? または、より一般的な関数を使用することもできscanます。

mydoc.txt <-scan("./mydoc.txt", what = "character")

score 6 · Accepted Answer

実際、これは最初は非常に難しいことがわかったので、ここでより包括的な説明を行います。

まず、テキストドキュメントのソースを設定する必要があります。最も簡単な方法は (特にドキュメントをさらに追加する予定がある場合は、すべてのファイルを読み込むディレクトリソースを作成することです。

source <- DirSource("yourdirectoryname/") #input path for documents
YourCorpus <- Corpus(source, readerControl=list(reader=readPlain)) #load in documents

次に、StemDocument 関数をコーパスに適用できます。HTH。

score 2 · Accepted Answer

あなたがやりたかったことは、個々のファイルをコーパスに読み込み、テキストファイル内のさまざまな行をさまざまな観測として扱うことだったと思います。

これがあなたが望むものを与えるかどうかを確認してください：

text <- read.delim("this is a test for R load.txt", sep = "/t")
text_corpus <- Corpus(VectorSource(text), readerControl = list(language = "en"))

これは、「this is a test for R load.txt」というファイルに、テキストデータを含む列が 1 つしかないことを前提としています。

ここで、「text_corpus」は探しているオブジェクトです。

お役に立てれば。

r - Rテキストファイルとテキストマイニング・・・データの読み込み方

6 に答える 6

Related

Reference