r - 省略形を無視して unnest_tokens() で文をトークン化する

翻译自：https://stackoverflow.com/questions/47211643 2017-11-09T21:15:09.887

2988 次

私は優れたtidytextパッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。

「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」

そしてそれを2つの文にトークン化します

「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
「彼は変装せずにそれを所有しています。」

ただし、デフォルトのセンテンストークナイザーを使用すると、tidytext3 つのセンテンスが得られます。

コード

df <- data_frame(Example_Text = c("I am perfectly convinced by it that Mr. Darcy has no defect. He owns it himself without disguise."))


unnest_tokens(df, input = "Example_Text", output = "Sentence", token = "sentences")

結果

# A tibble: 3 x 1
                              Sentence
                                <chr>
1 i am perfectly convinced by it that mr.
2                    darcy has no defect.
3    he owns it himself without disguise.

tidytext「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか？

r - 省略形を無視して unnest_tokens() で文をトークン化する

2 に答える 2

Related

Reference