VL-Feat と LIBLINEAR を使用して 2 カテゴリ分類を処理します。トレーニング セットの #(-)/#(+) は 35.01 で、各特徴ベクトルの次元は 3.6e5 です。私は約15000の例を持っています。
デフォルトで、正の例の重みを 35.01 に、負の例の重みを 1 に設定しました。しかし、私が得たのは、テスト データセットでのパフォーマンスが非常に悪いことです。
その理由を探るために、トレーニング例を入力として設定しました。私が見ているのは、負の例は正の例よりもわずかに高い決定値を取得することです。本当に奇妙ですよね?入力をチェックして、例に誤ったラベルを付けていないことを確認しました。ヒストグラム ベクトルの正規化を行いました。
誰もこの状況に遭遇したことがありますか?
トレーニング済みモデルのパラメーターは次のとおりです。バイアス、レギュラライザー、デュアリティギャップなどのパラメーターは非常に小さいため、正確性が失われやすいため、違和感を覚えます。
model.info =
solver: 'sdca'
lambda: 0.0100
biasMultiplier: 1
bias: -1.6573e-14
objective: 1.9439
regularizer: 6.1651e-04
loss: 1.9432
dualObjective: 1.9439
dualLoss: 1.9445
dualityGap: -2.6645e-15
iteration: 43868
epoch: 2
elapsedTime: 228.9374