r - qdap の sentSplit() には、エンドマークがない場合に問題があります

Question

極性分析に qdap パッケージを使用しています。CSV ファイルには、「Sucks to not be removed」(ピリオドなし) のような句読点のない文があります。データフレームで使用sentsplitした後、この行は NA を示しています。

Rで不完全な文にエンドマークを追加するにはどうすればよいですか? これを止める方法はありますか？

score 4 · Accepted Answer

関数の多くは、qdap適切にフォーマット/構造化されたデータフォームを想定しています。これは通常、エンドマークのある文を意味し、多くの場合、行ごとに 1 つの文のみです。これが、アルゴリズムが文とは何かを判断する方法です。文が実際に不完全な文である場合qdap、パイプ記号 "|" が必要です。これを表すために。したがって、関数で欠落しているエンドマークを検出し、最後にend_marka を貼り付ける例を次に示します。|

dat <- DATA
dat[1, 4] <- "Sucks to not be removable"
missing <- end_mark(dat[["state"]]) == "_"
dat[["state"]][missing] <- paste0(dat[["state"]][missing], "|")

sentSplit(dat, "state")

##        person  tot sex adult code                       state
## 1         sam  1.1   m     0   K1  Sucks to not be removable|
## 2        greg  2.1   m     0   K2     No it's not, it's dumb.
## 3     teacher  3.1   m     1   K3          What should we do?
## 4         sam  4.1   m     0   K4        You liar, it stinks!
## 5        greg  5.1   m     0   K5     I am telling the truth!
## 6       sally  6.1   f     0   K6      How can we be certain?
## 7        greg  7.1   m     0   K7            There is no way.
## 8         sam  8.1   m     0   K8             I distrust you.
## 9       sally  9.1   f     0   K9 What are you talking about?
## 10 researcher 10.1   f     1  K10           Shall we move on?
## 11 researcher 10.2   f     1  K10                  Good then.
## 12       greg 11.1   m     0  K11                 I'm hungry.
## 13       greg 11.2   m     0  K11                  Let's eat.
## 14       greg 11.3   m     0  K11                You already?

ちなみに、qdap（バージョン>= 2.1.1）の開発バージョンにはcheck_text、潜在的なフォーマットの問題を自動的にチェックし、潜在的な問題と可能な修正の場所を示すレポートを印刷するなど、データフォーマット機能の新しい行が含まれています。

r - qdap の sentSplit() には、エンドマークがない場合に問題があります

1 に答える 1

Related

Reference