R で CRAN の TM パッケージを使用しています。コーパスに基づいて DocumentTermMatrix を作成する際に問題があります。問題は、UTF-8 コーパスに基づいて TermDocumentMatrix を作成すると、一部の単語が Unicode シンボルに変わることです。
corpus <- Corpus(VectorSource(vector_with_texts_in_several_languages, encoding = "UTF-8"))
tdm <- TermDocumentMatrix(corpus, control=list(weighting=weightTfIdf))
print(Terms(tdm)[1:3])
戻り値:
[1] "<U+03BB>a<U+03B3><U+03AF>a"
[2] "<U+03C1><U+03AE>fa<U+03BD><U+03BF><U+03C2>"
[3] "<U+03C1><U+03AF>p<U+03BF><U+03C5>"
コーパスを手動で検査すると、正しい出力が表示されます。
print(corpus[[1]])
戻り値:
квартира на кутузовском
正しい条件で TermDocumentMatrix を取得する方法を知っている人はいますか? または、これらのユニコード記号を「読み取り可能な」出力に再度変換する方法はありますか?
注: print(Terms(tdm)) には print(corpus[[1]]) の単語は含まれません