問題タブ [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - slearn 標準スケーラー変換 VS fit_transform 出力
sklearn 標準スケーラーを使用して、パンダ データ フレームの一部の列を正規化しています。fit_transform は期待どおりに機能しますが、transform は機能しません。これが私がすることです:
そして、それは完全に機能しますが、これは機能しません:
そして、これはエラーメッセージです:
ファイル "main_FM.py"、286 行目、predict_first_stage 内
test[non_categorical_features] = scaler.transform(test[non_categorical_features])
TypeError: 'coo_matrix' オブジェクトには属性 ' getitem ' がありません
次のように入力するだけで、すべてが機能し、一致します。
ご協力いただきありがとうございます!
python - pandas.get_dummies から機能名を取得することは可能ですか?
pandas.get_dummies の機能名を取得して export_graphviz に渡すことができるかどうか疑問に思っていました。get_dummies を使用して、sklearn DecisionTreeClassifier のデータセットをエンコードしています。ツリーをエクスポートするとき、ノードの出力を読みやすくしたいと考えています。
前もって感謝します!
編集:
これが私が達成しようとしていることの例です:
feature_names パラメーターを使用して機能にラベルを付けたい
python - Pandas を使用してデータを整理するにはどうすればよいですか?
私はPythonの初心者です。CSV ファイルを読み取り可能なグリッドに整理しようとしています。Excel ファイルを CSV に変換すると、出力が文字化けし、コンマがごちゃごちゃになり、値がばらばらになりました。リストを試してみましたが、データが思い通りに整理されませんでした。Pandas グリッド プロットで、コードをカテゴリ (民族や人種のルーツなど) ごとに整理したいと考えました。
CSVとして保存されたファイルの一部を次に示します(残念ながら文字化けします):
このデータに使用されるコードは次のとおりです(パンダグリッドプロットに入れたい)
これまでの私のコードは次のとおりです。
これが私の出力です:
python - 列の値に基づいてデータフレームを 2 つのファイルに分割する
データフレームを 2 つの部分に分割する必要があります。たとえば、以下のデータフレームが Col1 に基づいてランダムに分割されている場合、両方のファイルに各カテゴリ 1、2、および 3 のサンプルが含まれている必要があります。
これまでのところ、を使用してデータを目的の比率に分割できましたsklearn.cross_validation import train_test_split
。しかし、すべてのカテゴリからサンプルを取得するために分割を行う方法がわかりません。
すべての助けに感謝します。ありがとう。
python - クラスタリング後の生データセットの繰り返し
クラスタリングに関するガイダンスまたはヘルプが必要です。繰り返し値を与えています。たとえば、未加工のデータセットの 4 行目は、クラスターのデータセット カウントと同じ回数繰り返されます。生のデータセットの繰り返しではなく、すべての行をクラスター化したい。
python - Python で疎行列を作成する
データを操作しており、後でクラスタリングの目的で使用する疎行列を作成したいと考えています。
現在、データは次のようになっています。
必要な出力は次のようになります。
numpy sparse matrix ライブラリを使用してみましたが、成功しませんでした。
python - 両方のファイルに対して少なくとも 1 つのサンプルが選択されるように、データをトレーニング/テスト ファイルに分割します。
データフレームに読み込まれる csv ファイルがあります。1 つの列の値に基づいて、トレーニング ファイルとテスト ファイルに分割します。
列が「カテゴリ」と呼ばれ、複数回繰り返される cat1、cat2、cat3 などの列値としていくつかのカテゴリ名があるとします。
各カテゴリ名が両方のファイルに少なくとも 1 回含まれるように、ファイルを分割する必要があります。
これまでのところ、比率に基づいてファイルを 2 つに分割できました。私は多くのオプションを試しましたが、これは今のところ最高のものです。
test_train_split の stratify オプションがよくわかりません。助けてください。ありがとう
python - sklearn 線形回帰係数には単一値の出力があります
データセットを使用して、給与と大学の GPA の関係を確認しています。sklearn 線形回帰モデルを使用しています。係数はインターセプトとコフであるべきだと思います。対応する機能の値。しかし、モデルは単一の値を与えています。