r - テキスト分析におけるステミングの問題 (スウェーデンのデータ)

翻译自：https://stackoverflow.com/questions/52856329 2018-10-17T13:40:13.030

486 次

次のコードでは、同じ語幹を持つ単語の数を減らすことを目的としています。たとえば、スウェーデン語の kompis は英語の友人を指し、語根が似ている単語は kompisar、kompiserna です。

rm(list=ls())
Sys.setlocale("LC_ALL","sv_SE.UTF-8")
library(tm)
library(SnowballC)
kompis <- c("kompisar", "kompis", "kompiserna")
stem_doc <- stemDocument(kompis, language="swedish")
stem_doc
1] "kompis" "kompis" "kompis"

kompis、kompisar、kompiserna という単語を含むサンプルテキストファイルを作成します。次に、次のコードを使用して、コーパスでいくつかの前処理を行いました。

        text <-  c("TV och vara med kompisar.",
               "Jobba på kompis huset",
               "Ta det lugnt, umgås med kompisar.",
               "Umgås med kompisar, vänner ",
               "kolla anime med kompiserna")
corpus.prep <- Corpus(VectorSource(text), readerControl    =list(reader=readPlain, language="swe"))
corpus.prep <- tm_map(corpus.prep, PlainTextDocument)
corpus.prep <- tm_map(corpus.prep, stemDocument,language = "swedish")
head(content(corpus.prep[[1]]))

結果は以下の通り。ただし、同じ語幹ではなく、元の単語 kompis が含まれています。

1] "TV och vara med kompisar."       
2] "Jobba på kompi huset"            
3] "Ta det lugnt, umgå med kompisar."
4] "Umgås med kompisar, vänner"      
5] "kolla anim med kompiserna"

それを修正する方法を知っていますか？

r - テキスト分析におけるステミングの問題 (スウェーデンのデータ)

2 に答える 2

Related

Reference