私は優れたtidytext
パッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。
「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」
そしてそれを2つの文にトークン化します
- 「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
- 「彼は変装せずにそれを所有しています。」
ただし、デフォルトのセンテンス トークナイザーを使用すると、tidytext
3 つのセンテンスが得られます。
コード
df <- data_frame(Example_Text = c("I am perfectly convinced by it that Mr. Darcy has no defect. He owns it himself without disguise."))
unnest_tokens(df, input = "Example_Text", output = "Sentence", token = "sentences")
結果
# A tibble: 3 x 1
Sentence
<chr>
1 i am perfectly convinced by it that mr.
2 darcy has no defect.
3 he owns it himself without disguise.
tidytext
「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか?