問題タブ [sklearn-pandas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - DataFrameMapper は特徴ベクトルの配置を保証しますか?
私のプロジェクトには、タイトルといくつかのメジャーとの関係を確立することが含まれます。
私は仕事のために pandas と sklearn に依存しており、sklearn-pandas のハングアウトを取得しています。これは、多くの機能結合を連鎖させるのではなく、機能抽出ステップを処理するのに DataFrameMapper が便利であることを発見したためです。
一言で言えば、これは次のようなものです。
次に、次のようなパイプラインで使用したいと思います。
この種のものはうまくいくはずです。しかし、機能の「配置」が維持されていないことがわかりました。
この単純なモデルを次のようにトレーニングしようとすると、次のようになります。
次のエラーで失敗します。
これは、トレーニング サンプルがテスト サンプルよりも「大きい」ため、CountVectorizer ボキャブラリに含まれる機能が少ないためであることがわかります。しかし直感的には、パイプライン (およびその中の DataFrameMapper) が、表示される可能性のある欠損値を埋めてくれることを願っています。
この時点で、これが DFM の使用が間違っているためかどうかはわかりません。または、ばかげた構成手順が欠落している場合。
誰かがここで私のエラーを指摘してもらえますか?
python-2.7 - DICT() と MATPLOTLIB?
sklearn のディシジョン ツリーの機能の重要性と、df の機能の対応する名前を一致させる辞書を作成しました。ここで以下のコード:
出力で私はこれを得ました:
私の期待通りに。2 つの質問があります。
feature_names
x 軸が を表し、y 軸が対応する棒グラフを作成するにはどうすればよいimportances
ですか?可能であれば、棒グラフを降順に並べ替えるにはどうすればよいですか?
python - Pythonで多数のベクトルのコサイン類似度をすばやく計算するには?
10 万個のベクトルのセットがあり、コサイン類似度に基づいて上位 25 個の最も近いベクトルを取得する必要があります。
Scipy と Sklearn には、コサイン距離/類似度 2 ベクトルを計算するための実装がありますが、100k X 100k サイズのコサイン Sim を計算してから、トップ 25 を取り出す必要があります。Python計算に高速な実装はありますか?
@Silmathoronの提案によると、これが私がやっていることです-
pandas - パンダは、列のセルに NaN 値を入力し、行の他のセルから値を取得します
私はデータフレームを持っています:
機械学習アルゴリズムを使用して、値が NaN である列「3」をその場で入力 (値を更新) したいと考えています。
その場で行う方法がわかりません。サンプルコード:
しかし、これによりデータフレームのコピーが得られます。私が残した唯一のオプションは for ループを使用することですが、私はそれをしたくありません。パンダを使用してそれを行うには、もっとpythonicな方法があるはずだと思います。誰か助けてくれませんか?または、これを行う他の方法はありますか?
python-2.7 - Python、Roc 曲線、ggplot?
roc 曲線と対応する auc を表示するためのチュートリアルに従いました。ggplot ライブラリを使用したことがないため、エラーがどこにあるのかわかりません。ここで以下のコード:
これはエラーです:
どうすればこれを修正できますか?
python - Pythonで翌日の株価を予測する方法は?
セリエの翌日の株価を予測しようとしていますが、モデルを「クエリ」する方法がわかりません。Pythonでの私のコードは次のとおりです。
さて、私が必要としているのは、モデル ( model.predict(..¿?..) ) にクエリを実行して、「次の」日の株価を予測することです。
どうすればいいですか?
前もって感謝します!!!
python - numpy 配列 float32 から numpy 配列 float64 への変換
Pythonでランダムフォレストを実装しようとしています。コードの実行中にこのエラーが発生しました。私はすでに から using に変換していましたfloat32
がfloat64
:
誰か助けてください。
python - Pycharm に「pandas」という名前のモジュールがありません
に関するすべてのトピックを読みましたが、問題を解決できません:
これは私の環境です:
Ubuntu 14.04
Pycharm バージョン: 2016.1.4
Python バージョン: 2.7.10
パンダのバージョン: 0.18.1
Pandas は、Jupyter でも Anaconda で動作します。誰でも問題を解決する方法を教えてもらえますか?