r - knn 関数のエラー

Question

私はこの行を実行しようとします:

knn(mydades.training[,-7],mydades.test[,-7],mydades.training[,7],k=5)

しかし、私は常にこのエラーが発生します:

Error in knn(mydades.training[, -7], mydades.test[, -7], mydades.training[,  : 
  NA/NaN/Inf in foreign function call (arg 6)
In addition: Warning messages:
1: In knn(mydades.training[, -7], mydades.test[, -7], mydades.training[,  :
  NAs introduced by coercion
2: In knn(mydades.training[, -7], mydades.test[, -7], mydades.training[,  :
  NAs introduced by coercion

任意のアイデアをお願いします?

PS : mydades.training と mydades.test は次のように定義されています。

N <- nrow(mydades) 
permut <- sample(c(1:N),N,replace=FALSE)
ord <- order(permut)
mydades.shuffled <- mydades[ord,]
prop.train <- 1/3
NOMBRE <- round(prop.train*N)
mydades.training <- mydades.shuffled[1:NOMBRE,]
mydades.test <- mydades.shuffled[(NOMBRE+1):N,]

score 30 · Accepted Answer

あなたの問題は、「mydades」に数値以外のデータフィールドがあることにあると思われます。エラー行:

NA/NaN/Inf in foreign function call (arg 6)

C 言語実装への knn-function 呼び出しが失敗したと思われます。R の多くの関数は、R だけにアルゴリズムを実装するのではなく、実際には基礎となるより効率的な C 実装を呼び出します。R コンソールに「knn」とだけ入力すると、「knn」の R 実装を調べることができます。次の行があります。

 Z <- .C(VR_knn, as.integer(k), as.integer(l), as.integer(ntr), 
        as.integer(nte), as.integer(p), as.double(train), as.integer(unclass(clf)), 
        as.double(test), res = integer(nte), pr = double(nte), 
        integer(nc + 1), as.integer(nc), as.integer(FALSE), as.integer(use.all))

ここで、.C は、提供された関数引数を使用して「VR_knn」という名前の C 関数を呼び出していることを意味します。2つのエラーがあるため

NAs introduced by coercion

as.double/as.integer 呼び出しのうち 2 つが失敗し、NA 値が導入されたと思います。パラメータのカウントを開始すると、6 番目の引数は次のようになります。

as.double(train)

次のような場合に失敗する可能性があります。

# as.double can not translate text fields to doubles, they are coerced to NA-values:
> as.double("sometext")
[1] NA
Warning message:
NAs introduced by coercion
# while the following text is cast to double without an error:
> as.double("1.23")
[1] 1.23

おそらく 'as.double(train)' と 'as.double(test)' によって与えられる 2 つの強制エラーが発生します。「mydades」がどのようであるかの正確な詳細を提供していないため、ここに私の最良の推測（および人工多変量正規分布データ）をいくつか示します。

library(MASS)
mydades <- mvrnorm(100, mu=c(1:6), Sigma=matrix(1:36, ncol=6))
mydades <- cbind(mydades, sample(LETTERS[1:5], 100, replace=TRUE))

# This breaks knn
mydades[3,4] <- Inf
# This breaks knn
mydades[4,3] <- -Inf
# These, however, do not introduce the coercion for NA-values error message

# This breaks knn and gives the same error; just some raw text
mydades[1,2] <- mydades[50,1] <- "foo"
mydades[100,3] <- "bar"

# ... or perhaps wrongly formatted exponential numbers?
mydades[1,1] <- "2.34EXP-05"

# ... or wrong decimal symbol?
mydades[3,3] <- "1,23" 
# should be 1.23, as R uses '.' as decimal symbol and not ','

# ... or most likely a whole column is non-numeric, since the error is given twice (as.double problem both in training AND test set)
mydades[,1] <- sample(letters[1:5],100,replace=TRUE)

数値データとクラスラベルの両方を 1 つの行列に保持することはできません。おそらく、次のようにデータを分割できます。

mydadesnumeric <- mydades[,1:6] # 6 first columns
mydadesclasses <- mydades[,7]

通話の使用

str(mydades); summary(mydades)

また、問題のあるデータエントリを特定し、それらを数値エントリに修正したり、数値以外のフィールドを省略したりするのにも役立ちます。

あなたが提供した残りの実行コード（データを壊した後）：

N <- nrow(mydades) 
permut <- sample(c(1:N),N,replace=FALSE)
ord <- order(permut)
mydades.shuffled <- mydades[ord,]
prop.train <- 1/3
NOMBRE <- round(prop.train*N)
mydades.training <- mydades.shuffled[1:NOMBRE,]
mydades.test <- mydades.shuffled[(NOMBRE+1):N,]

# 7th column seems to be the class labels
knn(train=mydades.training[,-7],test=mydades.test[,-7],mydades.training[,7],k=5)

score 12 · Accepted Answer

@ Teemuによる素晴らしい回答。

これはよく読まれている質問なので、分析の観点から同じ回答をします。

KNN 関数は、ポイント間のユークリッド距離を計算することにより、データポイントを分類します。それは数字を必要とする数学的計算です。したがって、KNN のすべての変数は、数値に強制可能でなければなりません。

KNN のデータ準備には、多くの場合、次の 3 つのタスクが含まれます。
(1) すべての NA または "" 値を修正します。
(2) すべての因子を、因子の各レベルに 1 つずつ、一連のブール値に変換します。
(3) 各変数の値を正規化します。変数の範囲が距離測定に過度に大きな影響を与えないように、範囲は 0:1 です。

score 0 · Accepted Answer

また、整数を使用すると関数が失敗するように見えることも指摘します。knn 関数を呼び出す前に、すべてを「num」型に変換する必要がありました。これには、R のほとんどのメソッドが factor タイプを使用するターゲット機能が含まれます。したがって、as.numeric(my_frame$target_feature) が必要です。

r - knn 関数のエラー

3 に答える 3

Related

Reference