問題タブ [feature-engineering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1083 参照

python - RandomForest に正規化は必要ですか?

1) ランダム フォレストに正規化は必要ですか?

2) すべての特徴を正規化するか、数値のみにするか?

3) トレーニング データとテスト データに分割する前または後に正規化するかどうかは重要ですか?

4) 分類される将来のオブジェクトの機能も前処理する必要がありますか? (テスト中ではなく、モデルを受け入れた後)

0 投票する
2 に答える
195 参照

machine-learning - テスト セットを正規化しているが範囲が広い

トレーニング セットを次のように正規化し、再スケーリングしています。

これはうまくいきます。トレーニング セットの平均値、STD、最小値、最大値を使用して、まったく同じ方法でテスト セットを変換します。テスト セットの平均値と最大値がトレーニング セットと同じである場合、これは正常に機能します。ただし、テスト セット内の変換されていないフィーチャの範囲が異なる場合は、再スケーリング後に -1, 1 を超える値になります。これはどのように対処できますか?

0 投票する
1 に答える
42 参照

python - 文字列関数 arg を使用して pandas DF の新機能に名前を付ける

機械学習用の pandas df に機能を追加できるようにする Python 関数を作成しようとしています。Python 関数で文字列を使用する方法を誤解していると思います。

この関数は df の行を調べ、何ヶ月先の行識別子 (下の行数) が同じ識別子を持つかどうかを確認します。そうであれば、将来の行の「開始」機能の値を新しい機能列に追加し、それ以外の場合は最初の行の「終了」を追加します。カスタマイズされたシフト機能です。

この機能を追加したら、適切な列ラベルを使用して df に新しい機能として 1 または 0 の列をさらに追加したいと思います。これは、「feat_so_many_months_in_future_is_higher_or_lower」のようなラベルが付けられます。

問題は、しきい値部分の周りで 2 番目のバイナリにさえ到達できないことです。最初の新機能を適切な名前で追加する際に問題が発生しています。

私の考えは、次のように関数を呼び出すことです:

コードを実行すると、この行が問題のようです:

...すべての新しい機能列の値を列名として追加するためです!

どんなポインタでも大歓迎です!

0 投票する
1 に答える
28 参照

python - 誰かがコメントしたかどうかを示す機能を作成するにはどうすればよいですか?

kaggle のこのデータセットを使用しています。

コメントした回答者とコメントしなかった回答者を示す列があります。コメントしなかった回答者の値は NaN です。誰かがコメントをした場合は 1 を示し、誰かがコメントをしなかった場合は 0 を示す別の変数を作成したいと考えています。これは私が使用したコードです:

ただし、次のエラーが表示されます。

return外部関数。

どんな助けでも大歓迎です。

0 投票する
0 に答える
37 参照

python-3.x - 顧客の複数のエントリを含むテーブルから、一意の顧客ごとに最も頻繁に発生するカテゴリを見つけるにはどうすればよいですか?

各顧客が複数のトランザクションを持つ 30,000 の一意のユーザーを持つデータセットがあります。ユーザーごとに 1 つのレコードでデータセットを集計し、平均トランザクション金額、最終訪問日などの集計情報を含めました。カテゴリ変数がたくさんあります。各顧客ごとに最も頻繁に発生するカテゴリを見つけて、集計データ セットに保存する必要があります。Python でそれを行うにはどうすればよいですか?

これは元のデータセットです

これは集約されたデータセットです

同じユーザーのレコードは 1 つだけです。カテゴリ機能 PRODUCT_DESC で、そのユーザーの最も頻繁に発生するカテゴリを確認する必要があります。