2

R で CRAN の TM パッケージを使用しています。コーパスに基づいて DocumentTermMatrix を作成する際に問題があります。問題は、UTF-8 コーパスに基づいて TermDocumentMatrix を作成すると、一部の単語が Unicode シンボルに変わることです。

corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])

戻り値:

[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>" 
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"

コーパスを手動で検査すると、正しい出力が表示されます。

print(corpus[[1]])

戻り値:

квартира на кутузовском

正しい条件で TermDocumentMatrix を取得する方法を知っている人はいますか? または、これらのユニコード記号を「読み取り可能な」出力に再度変換する方法はありますか?

注: print(Terms(tdm)) には print(corpus[[1]]) の単語は含まれません

4

1 に答える 1