16

R パッケージを使用しておりtm、テキスト マイニングを行いたいと考えています。これは 1 つのドキュメントであり、単語の袋として扱われます。

テキスト ファイルをロードする方法と、次のような機能の使用を開始するために必要なオブジェクトを作成する方法に関するドキュメントがわかりません。

stemDocument(x, language = map_IETF(Language(x)))

したがって、これが私のドキュメントであると仮定すると、「これは R 負荷のテストです」

テキスト処理用のデータをロードしてオブジェクト x を作成するにはどうすればよいですか?

4

6 に答える 6

7

readPlain同じライブラリの関数をそのまま使用することはできませんか? または、より一般的な関数を使用することもできscanます。

mydoc.txt <-scan("./mydoc.txt", what = "character")
于 2011-10-28T09:38:09.437 に答える
6

実際、これは最初は非常に難しいことがわかったので、ここでより包括的な説明を行います。

まず、テキスト ドキュメントのソースを設定する必要があります。最も簡単な方法は (特にドキュメントをさらに追加する予定がある場合は、すべてのファイルを読み込むディレクトリ ソースを作成することです。

source <- DirSource("yourdirectoryname/") #input path for documents
YourCorpus <- Corpus(source, readerControl=list(reader=readPlain)) #load in documents

次に、StemDocument 関数をコーパスに適用できます。HTH。

于 2011-10-28T09:48:00.537 に答える
2

あなたがやりたかったことは、個々のファイルをコーパスに読み込み、テキスト ファイル内のさまざまな行をさまざまな観測として扱うことだったと思います。

これがあなたが望むものを与えるかどうかを確認してください:

text <- read.delim("this is a test for R load.txt", sep = "/t")
text_corpus <- Corpus(VectorSource(text), readerControl = list(language = "en"))

これは、「this is a test for R load.txt」というファイルに、テキスト データを含む列が 1 つしかないことを前提としています。

ここで、「text_corpus」は探しているオブジェクトです。

お役に立てれば。

于 2013-06-23T06:34:50.793 に答える