1

vowpal wabbit に当てはめようとしている異常な回帰問題があります。n=1 から n=Nのデータセット{(x_n, h_n[m])} でトレーニングする一連のリグレッサー{r_m(x)}を学習しようとしています。ここで、 mはM次元のインデックスです。これは基本的に、M個の個別の回帰問題があることを意味します。

各問題を独自の名前空間に追いやることで、すべてのM問題を 1 つにマージすることが可能かどうか疑問に思っています。たとえば、.vw トレーニング ファイル内には、次のものがあります。

h_1[m=0] |firstnamespace x_1_features
h_2[m=0] |firstnamespace x_2_features
...      |...            ...
h_N[m=0] |firstnamespace x_N_features
----------------------------------------------------------------
h_1[m=1] |secondnamespace x_1_features
h_2[m=1] |secondnamespace x_2_features
...      |...             ...
h_N[m=1] |secondnamespace x_N_features
----------------------------------------------------------------
h_1[m=M] |lastnamespace x_1_features
h_2[m=M] |lastnamespace x_2_features
...      |...           ...
h_N[m=M] |lastnamespace x_N_features

その後、私はちょうど実行することができます

vw -d Train.vw -f Train.model -c --loss_function squared
    --invert_hash model_readable.txt

各名前空間のリグレッサーの重みを取得します。

この戦略は、マルチラベル分類問題を複数のバイナリ分類問題に変換/削減することに似ていることを知っています:このリンク. 同じことが、次元間のクロストークなしで回帰問題に適用できるかどうか疑問に思っています。つまり、各名前空間を個別に処理する vowpal wabbit です。

重要な点として、M = 400、N = 4e6 であり、データ次元の数はドキュメント セット全体の一意の単語トークンの数と同じです...

4

0 に答える 0