私はSQLとRを使用したテキストマイニングソリューションに取り組んでいます。
まず、SQL選択からRにデータをインポートし、それを使用してデータマイニングを行います。
これが私が得たものです:
rawData = sqlQuery(dwhConnect,sqlString)
a = data.frame(rawData$ENNOTE_NEU)
私がするなら
a[[1]][1:3]
構造が表示されます。
[1] lorem ipsum li ld ee wö wo di dd
[2] la kdin di da dogs chicken
[3] kd good i need some help
今、私は自分の辞書を使ってデータクリーニングをしたいと思っています。例として、 liをlorem ipsum とkdに置き換え、kdinをkundeに置き換えます。
私の問題は、データフレーム全体に対してそれをどのように行うかです。
for(i in 1:(nrow(a)))
{
a[[1]][i]=gsub( " kd | kdin " , " kunde " ,a[[1]][i])
a[[1]][i]=gsub( " li " , " lorem ipsum " ,a[[1]][i])
...
}
動作しますが、大量のデータに対しては低速です。
それを行うためのより良い方法はありますか?
キャプテンを応援します