問題タブ [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python で非線形回帰を実行する方法
私はPythonで次の情報(データフレーム)を持っています
そして、次の非線形回帰を実行してパラメーターを推定したいと考えています。
a、b、c
私が適合したい方程式:
sasでは通常、次のモデルを実行します:(ガウスニュートン法を使用)
非線形回帰を使用してPythonでパラメーターを推定する同様の方法はありますか?Pythonでプロットを表示するにはどうすればよいですか?
python - 追加のライブラリやメソッドを使用せずに pandas データ フレームを Scikit-Learn のモデルに適合させる
一方では、pandasはscikit-learnと相性が良いと言わ れています。たとえば、pandas シリーズのオブジェクトは、このビデオの sklearn モデルによく適合します。一方、Scikit-Learn の機械学習メソッドと pandas スタイルのデータ フレームの間の橋渡しをするsklearn-pandasがあり、そのようなライブラリが必要です。さらに、たとえば、モデルをフィッティングするために pandas データフレームを numpy 配列に変換する人もいます。
メソッドやライブラリを追加せずにpandasとscikit-learnを組み合わせることが可能かどうか疑問に思います。私の問題は、次の方法でデータセットを sklearn モデルに適合させるたびに、次のようになることです。
エラーが表示されます:
私が理解している限り、それはデータ構造によるものです。ただし、同様のコードを問題なく使用している例はインターネット上にほとんどありません。
python - 順序付けできない型: OneVsRest Classifier の実行中の dict() <= int()
330 の特徴と約 800 のレコードを含む入力データに対してマルチラベル分類を実行しています。次の param_grid で RandomForestClassifier を活用しています。
データをクリーンアップした後、分類子を設定してモデルに適合させ、decision_fucntion を適用する方法は次のとおりです。
X_train シェイプ - (800, 334)、Y_train シェイプ - (800, 4)。分類数 - 4. sklearn 0.18 でコードを実行する
ただし、次のエラー メッセージが表示されます。
python - sklearn.linear_model.ridge の統計要約テーブル?
OLS 形式の StatsModels では、results.summary は回帰結果 (AIC、BIC、R-squared など) の概要を示します。
この集計テーブルを sklearn.linear_model.ridge に含める方法はありますか?
誰かが私を案内してくれれば幸いです。ありがとうございました。
python - CountVectorizer: 変換メソッドは、単一のテキスト行で多次元配列を返します
まず、SMS のコーパスに当てはめます。
うまくいくようです:
しかし、その後、transform メソッドをテキスト行に適用しました。ご存知のように、結果として (, 8713) の形状になるはずですが、次のようになります。
52 (52、8713)
ここで何が起こっているのですか?もう1つ-すべての数字はゼロです
python - Sklearn digits データセット
x と y の形状も変更しました。それでも次のようなエラーが表示されます:
サンプル数が一致しない入力変数が見つかりました: [1, 1796]
Y には 1796 要素の 1 次元配列がありますが、x には多くの要素があります。x の 1 はどのように表示されますか?
pandas - 特徴量が不明な scikit-learn PCA
pca分析にsklearnを使用したい(その後、回帰とkmeansクラスタリング)。20k の機能、2000k 行のデータセットがあります。ただし、データセットの各行では、フィーチャのサブセット (通常は 20k のうちの任意の 5 つ程度) のみが測定されています。
値が測定されていないインスタンスに対してsklearnが機能を使用しないように、パンダのデータフレーム/セットアップsklearnをどのようにパディングする必要がありますか? (たとえば、null 機能値を 0.0 に設定すると、結果が歪められますか?)。
例えば:
データセットがほとんどの特徴値に対してゼロで埋められている場合、pca は有効ですか?
python - セル条件でのパンダの複数のスライス行
このデータを ConvID でグループ化し、日付で並べ替えたいと考えています。「Msgtype」=その特定の ConvID を受け入れるまでの行が必要です。特定の ConvID の予約リクエストが受け入れられるまで、メッセージ データを分析することを目指します。したがって、ConvID = 689 の場合、"Msgtype" = 受け入れるまで行が必要です。「同意」の後の残りの行は必須ではありません。
例: ConvID = 689 の場合、これら 2 つは不要です。
同様に、ConvID = 690 の場合、この行は不要です。