問題タブ [feature-engineering]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

379 問題

0 投票する

1 に答える

1083 参照

python - RandomForest に正規化は必要ですか?

1) ランダムフォレストに正規化は必要ですか?

2) すべての特徴を正規化するか、数値のみにするか?

3) トレーニングデータとテストデータに分割する前または後に正規化するかどうかは重要ですか?

4) 分類される将来のオブジェクトの機能も前処理する必要がありますか? （テスト中ではなく、モデルを受け入れた後）

2019-08-03T14:13:37.227

0 投票する

2 に答える

195 参照

machine-learning - テストセットを正規化しているが範囲が広い

トレーニングセットを次のように正規化し、再スケーリングしています。

これはうまくいきます。トレーニングセットの平均値、STD、最小値、最大値を使用して、まったく同じ方法でテストセットを変換します。テストセットの平均値と最大値がトレーニングセットと同じである場合、これは正常に機能します。ただし、テストセット内の変換されていないフィーチャの範囲が異なる場合は、再スケーリング後に -1, 1 を超える値になります。これはどのように対処できますか？

machine-learning data-science cross-validation feature-engineering feature-scaling

2019-09-08T06:22:49.757

0 投票する

1 に答える

42 参照

python - 文字列関数 arg を使用して pandas DF の新機能に名前を付ける

機械学習用の pandas df に機能を追加できるようにする Python 関数を作成しようとしています。Python 関数で文字列を使用する方法を誤解していると思います。

この関数は df の行を調べ、何ヶ月先の行識別子 (下の行数) が同じ識別子を持つかどうかを確認します。そうであれば、将来の行の「開始」機能の値を新しい機能列に追加し、それ以外の場合は最初の行の「終了」を追加します。カスタマイズされたシフト機能です。

この機能を追加したら、適切な列ラベルを使用して df に新しい機能として 1 または 0 の列をさらに追加したいと思います。これは、「feat_so_many_months_in_future_is_higher_or_lower」のようなラベルが付けられます。

問題は、しきい値部分の周りで 2 番目のバイナリにさえ到達できないことです。最初の新機能を適切な名前で追加する際に問題が発生しています。

私の考えは、次のように関数を呼び出すことです：

コードを実行すると、この行が問題のようです:

...すべての新しい機能列の値を列名として追加するためです!

どんなポインタでも大歓迎です！

python pandas feature-engineering

2019-09-22T21:33:07.370

0 投票する

1 に答える

28 参照

python - 誰かがコメントしたかどうかを示す機能を作成するにはどうすればよいですか?

kaggle のこのデータセットを使用しています。

コメントした回答者とコメントしなかった回答者を示す列があります。コメントしなかった回答者の値は NaN です。誰かがコメントをした場合は 1 を示し、誰かがコメントをしなかった場合は 0 を示す別の変数を作成したいと考えています。これは私が使用したコードです:

ただし、次のエラーが表示されます。

return外部関数。

どんな助けでも大歓迎です。

python data-science feature-engineering

2019-09-23T15:27:43.543

0 投票する

0 に答える

37 参照

python-3.x - 顧客の複数のエントリを含むテーブルから、一意の顧客ごとに最も頻繁に発生するカテゴリを見つけるにはどうすればよいですか?

各顧客が複数のトランザクションを持つ 30,000 の一意のユーザーを持つデータセットがあります。ユーザーごとに 1 つのレコードでデータセットを集計し、平均トランザクション金額、最終訪問日などの集計情報を含めました。カテゴリ変数がたくさんあります。各顧客ごとに最も頻繁に発生するカテゴリを見つけて、集計データセットに保存する必要があります。Python でそれを行うにはどうすればよいですか?

同じユーザーのレコードは 1 つだけです。カテゴリ機能 PRODUCT_DESC で、そのユーザーの最も頻繁に発生するカテゴリを確認する必要があります。

python-3.x pandas dataframe feature-engineering

2019-10-02T13:26:56.493

1 2 3 4 5 6 7 8 9 10

問題タブ [feature-engineering]

python - RandomForest に正規化は必要ですか?

machine-learning - テスト セットを正規化しているが範囲が広い

python - 文字列関数 arg を使用して pandas DF の新機能に名前を付ける

python - 誰かがコメントしたかどうかを示す機能を作成するにはどうすればよいですか?

python-3.x - 顧客の複数のエントリを含むテーブルから、一意の顧客ごとに最も頻繁に発生するカテゴリを見つけるにはどうすればよいですか?

Reference

machine-learning - テストセットを正規化しているが範囲が広い