matlab - libsvm (matlab) で事前計算された chi2 カーネルを使用すると悪い結果が生じる

Question

libsvm を試しています。ソフトウェアに付属の heart_scale データで svm をトレーニングする例に従います。自分で事前計算した chi2 カーネルを使用したい。トレーニングデータの分類率は 24% に低下します。カーネルを正しく計算していると確信していますが、何か間違ったことをしているに違いないと思います。コードは以下です。間違いが見られますか？助けていただければ幸いです。

%read in the data:
[heart_scale_label, heart_scale_inst] = libsvmread('heart_scale');
train_data = heart_scale_inst(1:150,:);
train_label = heart_scale_label(1:150,:);

%read somewhere that the kernel should not be sparse
ttrain = full(train_data)';
ttest = full(test_data)';

precKernel = chi2_custom(ttrain', ttrain');
model_precomputed = svmtrain2(train_label, [(1:150)', precKernel], '-t 4');

これは、カーネルが事前計算される方法です。

function res=chi2_custom(x,y)
a=size(x);
b=size(y);
res = zeros(a(1,1), b(1,1));
for i=1:a(1,1)
    for j=1:b(1,1)
        resHelper = chi2_ireneHelper(x(i,:), y(j,:));
        res(i,j) = resHelper;
    end
end
function resHelper = chi2_ireneHelper(x,y)
a=(x-y).^2;
b=(x+y);
resHelper = sum(a./(b + eps));

別の svm 実装 (vlfeat) を使用すると、トレーニングデータの分類率が約 90% になりました (はい、何が起こっているかを確認するためにトレーニングデータをテストしました)。したがって、libsvm の結果が間違っていると確信しています。

score 15 · Accepted Answer

サポートベクターマシンを使用する場合、前処理ステップとしてデータセットを正規化することが非常に重要です。正規化により、属性が同じスケールに配置され、大きな値を持つ属性によって結果が偏るのを防ぎます。また、数値の安定性も向上します (浮動小数点表現によるオーバーフローとアンダーフローの可能性を最小限に抑えます)。

また、正確には、カイ二乗カーネルの計算がわずかにずれています。代わりに、以下の定義を使用して、このより高速な実装を使用します。

chi_squared_kernel

function D = chi2Kernel(X,Y)
    D = zeros(size(X,1),size(Y,1));
    for i=1:size(Y,1)
        d = bsxfun(@minus, X, Y(i,:));
        s = bsxfun(@plus, X, Y(i,:));
        D(:,i) = sum(d.^2 ./ (s/2+eps), 2);
    end
    D = 1 - D;
end

次に、あなたと同じデータセットを使用した次の例を考えてみましょう (私の以前の回答から改作されたコード):

%# read dataset
[label,data] = libsvmread('./heart_scale');
data = full(data);      %# sparse to full

%# normalize data to [0,1] range
mn = min(data,[],1); mx = max(data,[],1);
data = bsxfun(@rdivide, bsxfun(@minus, data, mn), mx-mn);

%# split into train/test datasets
trainData = data(1:150,:);    testData = data(151:270,:);
trainLabel = label(1:150,:);  testLabel = label(151:270,:);
numTrain = size(trainData,1); numTest = size(testData,1);

%# compute kernel matrices between every pairs of (train,train) and
%# (test,train) instances and include sample serial number as first column
K =  [ (1:numTrain)' , chi2Kernel(trainData,trainData) ];
KK = [ (1:numTest)'  , chi2Kernel(testData,trainData)  ];

%# view 'train vs. train' kernel matrix
figure, imagesc(K(:,2:end))
colormap(pink), colorbar

%# train model
model = svmtrain(trainLabel, K, '-t 4');

%# test on testing data
[predTestLabel, acc, decVals] = svmpredict(testLabel, KK, model);
cmTest = confusionmat(testLabel,predTestLabel)

%# test on training data
[predTrainLabel, acc, decVals] = svmpredict(trainLabel, K, model);
cmTrain = confusionmat(trainLabel,predTrainLabel)

テストデータの結果:

Accuracy = 84.1667% (101/120) (classification)
cmTest =
    62     8
    11    39

トレーニングデータでは、予想どおり約 90% の精度が得られます。

Accuracy = 92.6667% (139/150) (classification)
cmTrain =
    77     3
     8    62

train_train_kernel_matrix

score 0 · Accepted Answer

問題は次の行です。

resHelper = sum(a./(b + eps));

そのはず：

resHelper = 1-sum(2*a./(b + eps));

matlab - libsvm (matlab) で事前計算された chi2 カーネルを使用すると悪い結果が生じる

2 に答える 2

Related

Reference