極性分析に qdap パッケージを使用しています。CSV ファイルには、「Sucks to not be removed」(ピリオドなし) のような句読点のない文があります。データフレームで使用sentsplit
した後、この行は NA を示しています。
Rで不完全な文にエンドマークを追加するにはどうすればよいですか? これを止める方法はありますか?
関数の多くは、qdap
適切にフォーマット/構造化されたデータ フォームを想定しています。これは通常、エンドマークのある文を意味し、多くの場合、行ごとに 1 つの文のみです。これが、アルゴリズムが文とは何かを判断する方法です。文が実際に不完全な文である場合qdap
、パイプ記号 "|" が必要です。これを表すために。したがって、関数で欠落しているエンドマークを検出し、最後にend_mark
a を貼り付ける例を次に示します。|
dat <- DATA
dat[1, 4] <- "Sucks to not be removable"
missing <- end_mark(dat[["state"]]) == "_"
dat[["state"]][missing] <- paste0(dat[["state"]][missing], "|")
sentSplit(dat, "state")
## person tot sex adult code state
## 1 sam 1.1 m 0 K1 Sucks to not be removable|
## 2 greg 2.1 m 0 K2 No it's not, it's dumb.
## 3 teacher 3.1 m 1 K3 What should we do?
## 4 sam 4.1 m 0 K4 You liar, it stinks!
## 5 greg 5.1 m 0 K5 I am telling the truth!
## 6 sally 6.1 f 0 K6 How can we be certain?
## 7 greg 7.1 m 0 K7 There is no way.
## 8 sam 8.1 m 0 K8 I distrust you.
## 9 sally 9.1 f 0 K9 What are you talking about?
## 10 researcher 10.1 f 1 K10 Shall we move on?
## 11 researcher 10.2 f 1 K10 Good then.
## 12 greg 11.1 m 0 K11 I'm hungry.
## 13 greg 11.2 m 0 K11 Let's eat.
## 14 greg 11.3 m 0 K11 You already?
ちなみに、qdap
(バージョン>= 2.1.1)の開発バージョンにはcheck_text
、潜在的なフォーマットの問題を自動的にチェックし、潜在的な問題と可能な修正の場所を示すレポートを印刷するなど、データフォーマット機能の新しい行が含まれています。