1 つのタスクで TM の助けが必要です。~300 行と 42 個の変数を含む csv ファイルがあり、いくつかの変数には NA 値があります。データを NLP アプリケーションにロードする前に、TM を使用してこのファイルをクリーンアップしたいと考えています。具体的には、ストップワード、数字、句読点を削除したいと考えています。ステミングはおそらく必要ありません。最後の 5 つの列は、主にクリーンアップが必要な列です。重要なことに、NLP アプリケーションでは入力をテーブルとして使用できるため、入力を構造化したいと考えています。
理想的には、TM を使用してデータ フレームをコーパスに変換し、クリーンアップを実行してから、クリーンアップされたテキスト データを csv ファイルの構造に戻して、NLP アプリへの入力として使用したいと考えています。
小さなcsvファイルのテキストデータでこのタスクを実行する能力をテストしています. これは 7 行× 42 変数です。
RStudioを使用して、次のことを行いました
Tiz.corpus <- Corpus(DataframeSource(Tiz))
inspect(Tiz.corpus) 7つのテキストドキュメントからなるコーパス
メタデータは、2 つのタグと値のペアと 1 つのデータ フレームで構成されます。
....
この時点で、私は次のことを行いました...
Tiz.corpus <- tm_map(Tiz.corpus, tolower) # Make lowercase
Tiz.corpus <- tm_map(Tiz.corpus, removePunctuation, preserve_intra_word_dashes = TRUE)
Tiz.corpus <- tm_map(Tiz.corpus, removeWords, stopwords("english")) # Remove stopwords
ここまでは順調ですね。私はそれから試しました...
writeCorpus(Tiz.corpus)
私が得るのは、次のような内容の7つのドキュメントです...
132884
2
2
2
1
2
na
na
na
3
3
3
2
na
na
na
na
na
na
na
2
1
na
na
2
2
2
2
2
2
2
2
2
2
2
2
na
2
7
4
3
2
この時点で、テキスト データを復元して元の csv ファイルの構造に戻すにはどうすればよいかわかりません。
TM はこの仕事に適したツールではありませんか?
ホセ