問題タブ [standardized]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
587 参照

deep-learning - オートエンコーダー、病棟階層クラスタリングなどの前にデータ (バイナリ + 数値) を標準化/正規化しますか?

バイナリ データ (0,1) と異なる単位の数値データの両方を含むデータセットがあります。データを分類するために何らかの機械学習手法を適用したい場合 (潜在的にオートエンコーダーまたは階層クラスタリング)、データを標準化または正規化する必要がありますか?

ありがとうございました!

0 投票する
0 に答える
162 参照

r - R knncat Error in 1:knots.vec[num.ctr]

これが他の場所にある場合はお詫びします (また、私の質問が不十分である場合は、これが私の最初の投稿です)。何日も検索して他のすべてのエラーを解決しましたが、「1:knots.vec[num.ctr] のエラー: NA/NaN 引数」というエラーが表示され続けます。11 個が因子で 2 個が数値である 13 個の変数から 4 グループのカテゴリ クラス (Q72to73_OpportunitySegments) を予測しようとしています。データを as.data.frame から R に読み取りました (事前にすべての NA 行を削除しました)。私のコードは Carseats データの例で機能し、2 つの数値変数 (fldAge と fldSrvcYrs) を標準化しない場合にも機能します。

Carseats データで動作するコードは次のとおりです。

私は自分のデータで正確に上記を実行し、これを取得しました:

(これを示すのに役立ちますか?)

1 のエラー:knots.vec[num.ctr]: NA/NaN 引数

このエラーは、標準化された変数の 1 つまたは両方と関係があります (標準化されていないまったく同じデータに対して同じコードを実行すると、実行されknncatます)。これを解決する方法はありますか?(残念ながら、統計法の関係上、実データを公開することはできません。)

0 投票する
1 に答える
6984 参照

python - sklearn の cross_val_score() でデータを標準化する方法

データセットに対して k-fold-cross-validation を実行するために LinearSVC を使用したいとしましょう。データの標準化をどのように実行しますか?

私が読んだベスト プラクティスは、トレーニング データで標準化モデルを構築し、このモデルをテスト データに適用することです。

単純な train_test_split() を使用すると、これは簡単に実行できるようになります。

k-fold-cross-validation を実行しながらデータを標準化するにはどうすればよいでしょうか? 問題は、すべてのデータ ポイントがトレーニング/テスト用であるため、cross_val_score() の前にすべてを標準化できないという事実から生じます。相互検証ごとに異なる標準化が必要ではないでしょうか?

ドキュメントは、関数内で内部的に行われている標準化について言及していません。私はSOLですか?

編集: この投稿は非常に役立ちます: Python - sklearn.pipeline.Pipeline とは正確には何ですか?

0 投票する
0 に答える
31 参照

c# - テキスト入力データの標準化

制御されていない外部ソースから多くの型付きデータを受け取ります。データは、家電製品のメーカー/モデルをカバーしています。検証/オートコンプリートを強制する制御がないため、このデータのスペル/フォーマットは非常に面倒です。

エラスティック検索のようなものは、クエリの際にスペルミスを無視できることを知っています。ただし、データをグループ化して自動的に正規化し、グループ化できるようにしたいと考えています。

特定のテキスト間のレーベンシュタイン距離を計算し、同様のエントリをグループ化することを考えました。ただし、これらのアプライアンスの多くにはモデル番号、容量などが名前に含まれているため、問題のある数の誤った一致が発生します。言うまでもなく、かなり計算量の多い操作です。

家庭用ガスボイラーの使用例

  • ヴァイラント エコテック プロ 28
  • VAILLIANT エコテック プロ 28
  • ヴァイリアント エコ テック 28 プロ
  • VAILLIANT ターボマックス 242/2-5
  • ポッタートン プロマックス コンビ 28 HE プラス
  • ポッタートン プロマックス 28

最初の 3 と最後の 2 は同じです。明らかに、フォーマットやスペルなど、間違いの余地がたくさんあります。