問題タブ [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
5440 参照

python - 単純な pandas データ フレームで tsfresh を使用する

私が作成した単純な pandas データフレームで機能 (tsfresh.extract_features) を抽出しようとしています。機能を実行して印刷するたびに、計算されたすべての機能を 0 または NaN として取得します。ドキュメントをかなり読んでみましたが、頭を包むことができないようです。

コードは次のとおりです。

どんな助けでも大歓迎です。

ありがとう

0 投票する
1 に答える
1646 参照

python - sklearn の MinMax スケーラーが列の値を 0 から 1 の間で正規化しない

私はPythonでKNNアルゴリズムに取り組んでおり、データフレームをMinMaxScalerで正規化し、データを0から1の範囲に変換しようとしました.

ただし、出力を返すと、出力が1を超える列の最小/最大が観察されます。間違って使用していますか?

以下は、返された最小/最大値のスニペットです。 ここに画像の説明を入力

使用されたコードは次のとおりです。

機能には、列を含むデータフレームが含まれます (例: wrong_fragment、urgent ...)。

私が正しく理解している場合、MinMaxScaler の実行後、返される結果により、各列の値が 0 ~ 1 の範囲のみに正規化されます。私は正しいですか?

0 投票する
1 に答える
1275 参照

python - sklearn をインポートするときの順序付けできない型のエラー

Windowsにnumpy(1.12.0b1)、Scipy(0.18)をインストールしました。sci-kitもインストールしました。Python コンソールで "import sklearn" を書いたとき、次のようなエラーが表示されます: if np_version < (1, 12, 0): TypeError: unorderable types: str() < int() 何が問題になるのでしょうか?

0 投票する
2 に答える
443 参照

machine-learning - ダミー値を使用するとモデルのパフォーマンスが向上しますか?

多くの機能エンジニアリングには、オブジェクトの機能に対する get_dummies ステップがあります。たとえば、'M' と 'F' を含む性別の列を 2 つの列にダミー化し、それらをワンホット表現でラベル付けします。性別の列で「M」と「F」を直接 0 と 1 にしないのはなぜですか? ダミー手法は、分類モデルと回帰モデルの両方で、機械学習モデルにプラスの影響を与えますか? である場合、その理由は? ありがとう。

0 投票する
2 に答える
1015 参照

machine-learning - 特徴量エンジニアリングでオブジェクト属性に null 値を入力する方法は?

機能エンジニアリングで Kaggle の fill null メソッドを調べました。一部のプレーヤーは、NA を別のオブジェクト値で埋めます。

たとえば、性別列には「男性」、「女性」、および NA の値があります。メソッドは、NA を「Middle」などの別のオブジェクト値で埋めることです。その後、 null なしで sex 属性を扱い、pandas は null を検出しません。

この方法が機械学習モデルのパフォーマンスまたは優れた機能エンジニアリングに本当に良い影響を与えることを知りたいですか? それ以外に、データセットで知識のある発見がなかった後に NA を埋める良い方法はありますか?

0 投票する
1 に答える
1063 参照

pandas - sklearn で csv ファイルからデータを fit_transform できません

Scikit-learn でいくつかの分類を学ぼうとしています。しかし、このエラーの意味がわかりませんでした。

これはエラーをスローします:

この問題を回避するにはどうすればよいですか? 私の csv ファイルの 1 つのレコードは次のようになります。

このエラーは、Directors または Actors 列に複数の値があることが原因であると思います。どんな助けでも大歓迎です。ありがとう、