問題タブ [standardized]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
390 参照

python-3.x - GridSearchCV で StandardScaler を使用すると異なる結果が得られるのはなぜですか?

GridSearchCV で SVM のハイパーパラメータを最適化したい。しかし、最良の推定器のスコアは、最良のパラメーターで svm を実行したときのスコアとは大きく異なります。

結果は次のとおりです。

最高のスコア: 0.784

最高の推定スコア: 0.6991

最良のパラメーターのスコア: 0.7968

最良の推定器と svm のスコアが異なる理由がわかりません。これらの結果のうち、正しいテスト精度はどれですか? 0.6991 の Best estimator のスコアがこれほど悪いのはなぜですか? 私は何か間違ったことをした?

0 投票する
1 に答える
62 参照

python - 多くのゼロを含むピクセル入力データを標準化する

ニューラル ネットワークの入力データを標準化したい。

データは次のようになります。

これは私が使用した機能です。ゼロなので機能しません。

0 投票する
1 に答える
336 参照

h2o - H2O は、正規化された GLM モデル (ラッソ、リッジ、エラスティック ネット) のカテゴリ予測子を標準化すべきではありませんか?

「LASSO 法では、最初にリグレッサーを標準化する必要があるため、ペナルティ スキームがすべてのリグレッサーに公平になります。カテゴリリグレッサーの場合、リグレッサーをダミー変数でコード化し、ダミー変数を標準化します」(p. 394)。

ティブシラニ、R. (1997)。Cox モデルにおける変数選択の投げ縄法。 医学統計16 (4)、385-395。http://statweb.stanford.edu/~tibs/lasso/fulltext.pdf

水:

パッケージ 'glmnet' と同様に、h2o.glm 関数には、デフォルトで true である 'standardize' パラメーターが含まれています。ただし、予測子が入力 H2OFrame 内の因子として格納されている場合、H2O は自動的にエンコードされた因子変数 (つまり、結果のダミーまたはワンホット ベクトル) を標準化していないように見えます。私はこれを実験的に確認しましたが、この決定への言及はソース コードにも表示されます。

たとえば、メソッド denormalizeBeta ( https://github.com/h2oai/h2o-3/blob/553321ad5c061f4831c2c603c828a45303e63d2e/h2o-algos/src/main/java/hex/DataInfo.java#L359 ) には、「数値のみを非正規化する」というコメントが含まれています。 coefs (カテゴリカルは正規化されていません)。また、平均 (変数 _normSub) と標準偏差 (変数 _normMul の逆数) は、setTransform メソッド ( https://github.com/h2oai/h2o-3 /blob/553321ad5c061f4831c2c603c828a45303e63d2e/h2o-algos/src/main/java/hex/DataInfo.java#L599 )。

GLMnet:

対照的に、パッケージ「glmnet」は、model.matrix のような関数を使用して、モデルを適合させる前にカテゴリ変数がダミー コード化されることを期待しているようです。ダミー変数は、連続変数とともに標準化されます。これを回避する唯一の方法は、連続予測子のみを事前に標準化し、ダミー変数と連結してから、glmnet を standardize=FALSE で実行することです。

統計上の考慮事項:

ダミー変数またはワンホット ベクトルの場合、平均は TRUE 値の割合であり、SD は平均に正比例します。TRUE 値と FALSE 値の比率が等しいとき (つまり、 σ = 0.5)、 SD は最大値に達し、サンプル SD ( s ) はn → ∞として 0.5 に近づきます。したがって、連続予測変数が SD = 1 になるように標準化されているが、ダミー変数が標準化されていない場合、連続予測変数はダミー予測変数の SD の少なくとも 2 倍、不均衡なダミー変数の SD の 2 倍以上になります。

正則化ペナルティ (λ) が予測子全体に均等に適用されるように、予測子のスケール/分散が等しいと予想されるため、これは正則化 (LASSO、リッジ、エラスティック ネット) の問題になる可能性があるようです。2 つの予測子 A と B が同じ標準化された効果サイズを持つが、A の SD が B よりも小さい場合、A は必然的に B よりも大きな非標準化係数を持つことになります。 B よりも A。標準化された連続予測変数と標準化されていないカテゴリ予測変数が混在する正規化された回帰では、これがカテゴリ予測変数の体系的な過剰ペナルティにつながる可能性があるようです。

一般的に表明されている懸念は、ダミー変数を標準化すると、通常の解釈が失われるということです。この問題を回避するために、Gelman (2008) は、連続予測変数とカテゴリ予測変数を対等な立場に置きながら、連続予測変数を 1 ではなく 2 SD で割って標準化することを提案し、標準化された予測変数は SD = 0.5 になります。ただし、SD が 0.5 を大幅に下回る可能性がある、クラスの不均衡なダミー変数に対しては、これでもバイアスがかかるようです。

Gelman、A.(2008)。2 つの標準偏差で割って回帰入力をスケーリングします。医学統計、27(15)、2865-2873。 http://www.stat.columbia.edu/~gelman/research/published/standardizing7.pdf

質問:

正規化された回帰のワンホット ベクトルを標準化しないという H2O のアプローチは正しいですか? これは、ダミー変数/ワンホット ベクトルに過度のペナルティを課す傾向につながる可能性がありますか? それとも、何らかの理由で Tibshirani (1997) の推奨が修正されたのでしょうか?

0 投票する
1 に答える
35 参照

r - Naming a dataframe like the path

I have a lot of CSV that need to be standardized. I created a dictionary for doing so and so far the function that I have looks like this:

Nonetheless, the issue that I have is that when I read the CSV and turn them into a dataframe they lose their path and therefore I can't not write each of them as a CSV that matches the input name. What I would normally do would be:

I was thinking that a way of solving this would be to make this step:

so that the DF gets the name of the path but I haven't find any solution for that.

Any ideas on how to solve this issue for being able to apply a function and writing each of them as a standardized CSV?