3

私は優れたtidytextパッケージを使用して、いくつかの段落で文をトークン化しています。たとえば、次の段落を取り上げます。

「私は、ダーシー氏に何の欠陥もないことを完全に確信しています。彼は偽装せずにそれを所有しています。」

そしてそれを2つの文にトークン化します

  1. 「ダーシー氏には何の欠陥もないと私は完全に確信しています。」
  2. 「彼は変装せずにそれを所有しています。」

ただし、デフォルトのセンテンス トークナイザーを使用すると、tidytext3 つのセンテンスが得られます。

コード

df <- data_frame(Example_Text = c("I am perfectly convinced by it that Mr. Darcy has no defect. He owns it himself without disguise."))


unnest_tokens(df, input = "Example_Text", output = "Sentence", token = "sentences")

結果

# A tibble: 3 x 1
                              Sentence
                                <chr>
1 i am perfectly convinced by it that mr.
2                    darcy has no defect.
3    he owns it himself without disguise.

tidytext「Mr.」などの一般的な略語の問題に遭遇することなく、文をトークン化するために使用する簡単な方法は何ですか? または「博士」文末として解釈されていますか?

4

2 に答える 2