問題タブ [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python を使用して、データセットの各属性とターゲット属性の間の相関係数のグラフをプロットする方法
私はPythonが初めてで、各属性の相関係数とターゲット値との間のグラフをプロットする必要があります。膨大な数の値を持つ入力データセットがあります。以下に、サンプル データセットの値を示します。特定の消費者が会社を離れるかどうかを予測する必要があるため、結果列がターゲット変数です。
ここで、ご覧のとおり、結果列は文字列で、残りの列は整数です。結果と同様に、文字列値を持つ他の列 (サンプルには記載されていません) もいくつかあります。ここでは、文字列値と整数値の両方を持つ列の値を計算する必要があります。辞書を使用して、文字列値を持つ各列に値を割り当てました。例: 結果列には「はい」または「いいえ」があります。したがって、以下のように値が割り当てられます。
ラムダ関数を使用して、データセットの各列をループし、NO を 0 に、YES を 1 に置き換えました。式を使用して相関係数を計算しようとしました。
ここで、S はすべての値を保持するデータフレームです。同様に、データセットのすべての列をループして、各列の相関係数をターゲット変数に対して計算します。
これは相関係数を計算する効率的な方法ですか? 以下のように値を取得しているため (0.088327739664096655, 1.1787456108540725e-25) e^-25 が小さすぎるようです。
他に計算する方法はありますか?整数値を持つ他の列と比較したときに整数として扱うことができるように、文字列値を入力する他の方法を提案しますか(私が使用した辞書とラムダ以外?)
また、同じコードを使用して棒グラフをプロットする必要があります。from matplotlib import pyplot を plt ライブラリとして使用する予定です。
棒グラフをプロットする他の関数を提案しますか。ほとんどの場合、sklearnライブラリ、numpy、およびpandasを使用して、それらから既存の関数を使用しています。誰かが私を助けてくれれば、それは素晴らしいことです。ありがとう。
machine-learning - ScikitLearn パイプライン内の FeatureUnion から機能名を抽出する
SKlearn のパイプライン モデルを使用して、ランダム フォレスト分類器に送信される結合された機能を抽出および構築していますが、一部の機能エクストラクタは後で削除または追加できます。次の構造を検討してください。
を調べて、ランダム フォレストの予測を改善したいと思います。
RandomForstRegressor のプロパティ
次を使用してリストを取得できました。
そして今、feature_importances_ インデックスの列番号をパイプラインの機能名/ステップに動的にリンクしたいと思います。
フィーチャー ユニオン内でフィーチャー名を保存/取得するための推奨される方法はありますか? この問題にどのように対処しますか?
python - sklearn SVM fit() "ValueError: シーケンスで配列要素を設定する"
sklearn を使用して、独自のイメージ セットに svm を適用しています。画像はデータフレームに入れられます。2D リストを持つ numpy 配列を fit 関数に渡します。これらの 2D リストは画像を表し、関数に渡す 2 番目の入力はターゲットのリストです (ターゲットは数値です)。「ValueError:配列要素をシーケンスで設定しています」というエラーが常に発生します。
エラー:
python - sklearn を使用して Python を使用してデータフレームで PCA を実行する
すべてのバリアントの行が多数あり、列がコンポーネントの数を表すサンプル入力ファイルがあります。
まず、この .txt ファイルを次のようにインポートします。
主成分分析を実行し、最初の 2 つの成分 (つまり、最初の 2 つの列) をプロットしたいと思います。
について読んだ後、これがそれについての方法であるかどうかはわかりません
2 つのコンポーネントの PCA:
したがって、入力ファイルを Python のデータフレームとしてインポートして PCA を実行するのに助けが必要です