分類問題のモデルをトレーニングするために、Liblinear を使用しています。トレーニング データのサンプルの順序を変更すると、異なるモデルになる可能性があることに気付きました。これをテストするために、同じデータを異なる順序で含む 2 つの異なる liblinear 問題を作成しました。
Problem 1:
x:
[FeatureNode(idx=1, value=1.0), FeatureNode(idx=2, value=1.0), FeatureNode(idx=5, value=1.0)]
[FeatureNode(idx=1, value=1.0), FeatureNode(idx=2, value=1.0), FeatureNode(idx=3, value=1.0), FeatureNode(idx=5, value=1.0)]
y:
[1.0, 0.0]
Generated model:
[0.0, 0.0, -1.0, 0.0, 0.0]
Problem2:
x:
[FeatureNode(idx=1, value=1.0), FeatureNode(idx=2, value=1.0), FeatureNode(idx=3, value=1.0), FeatureNode(idx=5, value=1.0)]
[FeatureNode(idx=1, value=1.0), FeatureNode(idx=2, value=1.0), FeatureNode(idx=5, value=1.0)]
y:
[0.0, 1.0]
Generated model:
[0.04166666666666674, 0.04166666666666674, 0.875, 0.0, 0.04166666666666674]
これの理由は何ですか?これは回避できますか?