問題タブ [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
2247 参照

python - slearn 標準スケーラー変換 VS fit_transform 出力

sklearn 標準スケーラーを使用して、パンダ データ フレームの一部の列を正規化しています。fit_transform は期待どおりに機能しますが、transform は機能しません。これが私がすることです:

そして、それは完全に機能しますが、これは機能しません:

そして、これはエラーメッセージです:

ファイル "main_FM.py"、286 行目、predict_first_stage 内

test[non_categorical_features] = scaler.transform(test[non_categorical_features])

TypeError: 'coo_matrix' オブジェクトには属性 ' getitem ' がありませ

次のように入力するだけで、すべてが機能し、一致します。

ご協力いただきありがとうございます!

0 投票する
3 に答える
10286 参照

python - pandas.get_dummies から機能名を取得することは可能ですか?

pandas.get_dummies の機能名を取得して export_graphviz に渡すことができるかどうか疑問に思っていました。get_dummies を使用して、sklearn DecisionTreeClassifier のデータセットをエンコードしています。ツリーをエクスポートするとき、ノードの出力を読みやすくしたいと考えています。

前もって感謝します!

編集:

これが私が達成しようとしていることの例です:

feature_names パラメーターを使用して機能にラベルを付けたい

0 投票する
1 に答える
253 参照

python - Pandas を使用してデータを整理するにはどうすればよいですか?

私はPythonの初心者です。CSV ファイルを読み取り可能なグリッドに整理しようとしています。Excel ファイルを CSV に変換すると、出力が文字化けし、コンマがごちゃごちゃになり、値がばらばらになりました。リストを試してみましたが、データが思い通りに整理されませんでした。Pandas グリッド プロットで、コードをカテゴリ (民族や人種のルーツなど) ごとに整理したいと考えました。

CSVとして保存されたファイルの一部を次に示します(残念ながら文字化けします):

このデータに使用されるコードは次のとおりです(パンダグリッドプロットに入れたい)

これまでの私のコードは次のとおりです。

これが私の出力です:

0 投票する
1 に答える
106 参照

python - 列の値に基づいてデータフレームを 2 つのファイルに分割する

データフレームを 2 つの部分に分割する必要があります。たとえば、以下のデータフレームが Col1 に基づいてランダムに分割されている場合、両方のファイルに各カテゴリ 1、2、および 3 のサンプルが含まれている必要があります。

これまでのところ、を使用してデータを目的の比率に分割できましたsklearn.cross_validation import train_test_splitしかし、すべてのカテゴリからサンプルを取得するために分割を行う方法がわかりません。 すべての助けに感謝します。ありがとう。

0 投票する
3 に答える
9497 参照

python - 機能の重要性を木の森でラベル付けする方法は?

sklearn を使用して、木の森の機能の重要性をプロットします。データフレームの名前は「ハート」です。ソートされた機能のリストを抽出するコードは次のとおりです。

次に、この方法でリストをプロットします。

そして、私は次のようなプロットを取得します:

ここに画像の説明を入力

私の質問は、プロットをより理解しやすくするために、機能の NUMBER を機能の名前に置き換えるにはどうすればよいですか? フィーチャの名前 (データ フレームの各列の名前) を含む文字列を変換しようとしましたが、目標を達成できません。

ありがとう

0 投票する
0 に答える
66 参照

python - クラスタリング後の生データセットの繰り返し

クラスタリングに関するガイダンスまたはヘルプが必要です。繰り返し値を与えています。たとえば、未加工のデータセットの 4 行目は、クラスターのデータセット カウントと同じ回数繰り返されます。生のデータセットの繰り返しではなく、すべての行をクラスター化したい。

0 投票する
2 に答える
1796 参照

python - Python で疎行列を作成する

データを操作しており、後でクラスタリングの目的で使用する疎行列を作成したいと考えています。

現在、データは次のようになっています。

必要な出力は次のようになります。

numpy sparse matrix ライブラリを使用してみましたが、成功しませんでした。

0 投票する
1 に答える
1284 参照

python - 両方のファイルに対して少なくとも 1 つのサンプルが選択されるように、データをトレーニング/テスト ファイルに分割します。

データフレームに読み込まれる csv ファイルがあります。1 つの列の値に基づいて、トレーニング ファイルとテスト ファイルに分割します。

列が「カテゴリ」と呼ばれ、複数回繰り返される cat1、cat2、cat3 などの列値としていくつかのカテゴリ名があるとします。

各カテゴリ名が両方のファイルに少なくとも 1 回含まれるように、ファイルを分割する必要があります。

これまでのところ、比率に基づいてファイルを 2 つに分割できました。私は多くのオプションを試しましたが、これは今のところ最高のものです。

test_train_split の stratify オプションがよくわかりません。助けてください。ありがとう

0 投票する
3 に答える
2668 参照

python - sklearn 線形回帰係数には単一値の出力があります

データセットを使用して、給与と大学の GPA の関係を確認しています。sklearn 線形回帰モデルを使用しています。係数はインターセプトとコフであるべきだと思います。対応する機能の値。しかし、モデルは単一の値を与えています。