0

1 つのタスクで TM の助けが必要です。~300 行と 42 個の変数を含む csv ファイルがあり、いくつかの変数には NA 値があります。データを NLP アプリケーションにロードする前に、TM を使用してこのファイルをクリーンアップしたいと考えています。具体的には、ストップワード、数字、句読点を削除したいと考えています。ステミングはおそらく必要ありません。最後の 5 つの列は、主にクリーンアップが必要な列です。重要なことに、NLP アプリケーションでは入力をテーブルとして使用できるため、入力を構造化したいと考えています。

理想的には、TM を使用してデータ フレームをコーパスに変換し、クリーンアップを実行してから、クリーンアップされたテキスト データを csv ファイルの構造に戻して、NLP アプリへの入力として使用したいと考えています。

小さなcsvファイルのテキストデータでこのタスクを実行する能力をテストしています. これは 7 行× 42 変数です。

RStudioを使用して、次のことを行いました

Tiz.corpus <- Corpus(DataframeSource(Tiz))

inspect(Tiz.corpus) 7つのテキストドキュメントからなるコーパス

メタデータは、2 つのタグと値のペアと 1 つのデータ フレームで構成されます。

....

この時点で、私は次のことを行いました...

Tiz.corpus <- tm_map(Tiz.corpus, tolower)  # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english"))  # Remove stopwords

ここまでは順調ですね。私はそれから試しました...

writeCorpus(Tiz.corpus) 

私が得るのは、次のような内容の7つのドキュメントです...

132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2

この時点で、テキスト データを復元して元の csv ファイルの構造に戻すにはどうすればよいかわかりません。

TM はこの仕事に適したツールではありませんか?

ホセ

4

0 に答える 0