問題タブ [sklearn-pandas]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1212 問題

0 投票する

1 に答える

2247 参照

python - slearn 標準スケーラー変換 VS fit_transform 出力

sklearn 標準スケーラーを使用して、パンダデータフレームの一部の列を正規化しています。fit_transform は期待どおりに機能しますが、transform は機能しません。これが私がすることです：

そして、それは完全に機能しますが、これは機能しません:

そして、これはエラーメッセージです：

ファイル "main_FM.py"、286 行目、predict_first_stage 内

test[non_categorical_features] = scaler.transform(test[non_categorical_features])

TypeError: 'coo_matrix' オブジェクトには属性 ' getitem ' がありません

次のように入力するだけで、すべてが機能し、一致します。

ご協力いただきありがとうございます！

python scikit-learn scaling sklearn-pandas

2016-04-30T19:55:59.050

0 投票する

3 に答える

10286 参照

python - pandas.get_dummies から機能名を取得することは可能ですか?

pandas.get_dummies の機能名を取得して export_graphviz に渡すことができるかどうか疑問に思っていました。get_dummies を使用して、sklearn DecisionTreeClassifier のデータセットをエンコードしています。ツリーをエクスポートするとき、ノードの出力を読みやすくしたいと考えています。

前もって感謝します！

編集：

これが私が達成しようとしていることの例です：

feature_names パラメーターを使用して機能にラベルを付けたい

python pandas graphviz sklearn-pandas

2016-05-06T16:27:42.023

0 投票する

1 に答える

253 参照

python - Pandas を使用してデータを整理するにはどうすればよいですか?

私はPythonの初心者です。CSV ファイルを読み取り可能なグリッドに整理しようとしています。Excel ファイルを CSV に変換すると、出力が文字化けし、コンマがごちゃごちゃになり、値がばらばらになりました。リストを試してみましたが、データが思い通りに整理されませんでした。Pandas グリッドプロットで、コードをカテゴリ (民族や人種のルーツなど) ごとに整理したいと考えました。

CSVとして保存されたファイルの一部を次に示します（残念ながら文字化けします）：

このデータに使用されるコードは次のとおりです(パンダグリッドプロットに入れたい)

これまでの私のコードは次のとおりです。

これが私の出力です：

python csv numpy pandas sklearn-pandas

2016-05-25T17:16:14.793

0 投票する

1 に答える

106 参照

python - 列の値に基づいてデータフレームを 2 つのファイルに分割する

データフレームを 2 つの部分に分割する必要があります。たとえば、以下のデータフレームが Col1 に基づいてランダムに分割されている場合、両方のファイルに各カテゴリ 1、2、および 3 のサンプルが含まれている必要があります。

これまでのところ、を使用してデータを目的の比率に分割できましたsklearn.cross_validation import train_test_split。しかし、すべてのカテゴリからサンプルを取得するために分割を行う方法がわかりません。 すべての助けに感謝します。ありがとう。

python sklearn-pandas

2016-06-07T11:34:23.883

0 投票する

3 に答える

9497 参照

python - 機能の重要性を木の森でラベル付けする方法は?

sklearn を使用して、木の森の機能の重要性をプロットします。データフレームの名前は「ハート」です。ソートされた機能のリストを抽出するコードは次のとおりです。

次に、この方法でリストをプロットします。

そして、私は次のようなプロットを取得します:

私の質問は、プロットをより理解しやすくするために、機能の NUMBER を機能の名前に置き換えるにはどうすればよいですか? フィーチャの名前 (データフレームの各列の名前) を含む文字列を変換しようとしましたが、目標を達成できません。

ありがとう

python numpy matplotlib scikit-learn sklearn-pandas

2016-06-17T09:10:19.567

0 投票する

0 に答える

66 参照

python - クラスタリング後の生データセットの繰り返し

クラスタリングに関するガイダンスまたはヘルプが必要です。繰り返し値を与えています。たとえば、未加工のデータセットの 4 行目は、クラスターのデータセットカウントと同じ回数繰り返されます。生のデータセットの繰り返しではなく、すべての行をクラスター化したい。

python python-2.7 scikit-learn nltk sklearn-pandas

2016-06-17T10:27:05.617

0 投票する

2 に答える

1796 参照

python - Python で疎行列を作成する

データを操作しており、後でクラスタリングの目的で使用する疎行列を作成したいと考えています。

現在、データは次のようになっています。

必要な出力は次のようになります。

numpy sparse matrix ライブラリを使用してみましたが、成功しませんでした。

python numpy scikit-learn sparse-matrix sklearn-pandas

2016-06-21T20:21:34.953

0 投票する

1 に答える

1284 参照

python - 両方のファイルに対して少なくとも 1 つのサンプルが選択されるように、データをトレーニング/テストファイルに分割します。

データフレームに読み込まれる csv ファイルがあります。1 つの列の値に基づいて、トレーニングファイルとテストファイルに分割します。

列が「カテゴリ」と呼ばれ、複数回繰り返される cat1、cat2、cat3 などの列値としていくつかのカテゴリ名があるとします。

各カテゴリ名が両方のファイルに少なくとも 1 回含まれるように、ファイルを分割する必要があります。

これまでのところ、比率に基づいてファイルを 2 つに分割できました。私は多くのオプションを試しましたが、これは今のところ最高のものです。

test_train_split の stratify オプションがよくわかりません。助けてください。ありがとう

python pandas scikit-learn sklearn-pandas

2016-06-22T13:43:23.377

0 投票する

3 に答える

2668 参照

python - sklearn 線形回帰係数には単一値の出力があります

データセットを使用して、給与と大学の GPA の関係を確認しています。sklearn 線形回帰モデルを使用しています。係数はインターセプトとコフであるべきだと思います。対応する機能の値。しかし、モデルは単一の値を与えています。

python pandas scikit-learn sklearn-pandas

2016-06-23T07:29:48.747

1 2 3 4 5 6 7 8 9 10