問題タブ [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - scikit-learnでデータが欠落している状態でSVMをうまく動作させるにはどうすればよいですか?
一部のデータ分析に scikit-learn を使用していますが、データセットにいくつかの欠損値があります ( で表されますNA
)。genfromtxt
with でデータをロードしdtype='f8'
、分類子のトレーニングに取り掛かります。
RandomForestClassifier
オブジェクトとGradientBoostingClassifier
オブジェクトの分類は問題ありませんが、 SVC
fromを使用するsklearn.svm
と次のエラーが発生します。
何を与える?欠落しているデータで SVM を適切に動作させるにはどうすればよいですか? 欠落しているデータは、ランダム フォレストやその他の分類子では正常に機能することに注意してください。
python - Scikit-Learnをインポートできません
Linux Mint 12にscikit-learnをインストールしようとしましたが、失敗しました。パッケージをhttp://pypi.python.org/pypi/scikit-learn/からダウンロードし、
次に、ディレクトリをホームに変更し、python2.7シェルを起動しました。sklearnをインポートすると、次のようになります。
問題はscipyの空間にあると思います。これは私がするとき
Scikit-learnの場合と同じエラーが発生します。
助けてください。ありがとうございました。
編集:新しいエラー。
python - Scikit-Learn の K 平均からの歪み関数
Scikit-Learn による K 平均クラスタリングを実行するときに歪み関数 (各点からその中心までの距離の合計) を取得するには、中心 ( k_means.cluster_centers_
) を取得し、各点の距離を合計するだけの簡単な方法があります。
より速い方法があるかどうか疑問に思っていますか?(プログラマー時間で言うと) 直接関数呼び出しとか。
numpy - PyDev の解決 numpy と sklearn に関する未解決のインポート
これらの未解決のインポートを解決するために見つけることができるほとんどすべてのものがあります。インポートしようとしているものは次のとおりです。
PyDev を実行している Mac OS X Lion の Eclipse では、次のエラーが発生します。
これはKaggleをセットアップするためのものであることに注意してください。
私が得られないのは、ターミナルで次のコマンドを入力すると、すべて問題ないように見えることです (目に見えるエラーは表示されません)。
可能な解決策を知っている場合は、詳細な手順で説明してください。Mac と PyDev は初めてです
python - scikit-learn を使用する Web アプリケーション
sklearn分類器をローカルでトレーニングしたので、その使用方法を示す単純な Web アプリケーションを作成する必要があります。私は Web アプリ開発の完全な初心者であり、使用しているモジュールをサポートしていないフレームワークを使用して Web アプリを作成するために時間を無駄にしたくありません。
- このタスクに適したアプローチは何だと思いますか?
- どの Web アプリ開発フレームワークを使用すればよいですか (ある場合)?
- などに飛び込む必要がありますか
Heroku
、django
または単純な科学的デモのためのより簡単で迅速なソリューションはありますか?
私が考えたのは、トレーニングした分類子を取得し、サーバー上でピクルしてピクル解除し、サーバーから実行するclassify
ことでしたが、どこから始めればよいかわかりません。
python - Heroku Cedarにscikit-learnをインストールするにはどうすればよいですか?
この回答で説明されている方法を使用して、numpyとscipyを正常にインストールしました。次に、scikit-learnを追加したかったので、最初にscikit-learn==0.11
requirements.txtに追加しようとしましたが、herokuにプッシュすると、エラーメッセージが表示されました。
だから私は私がLD_LIBRARY_PATH
持っているパスに追加しましたliblapack.so.3gf
が、それから私はこれを手に入れました:
herokuにはFortranコンパイラがないと思いますが、間違っているかもしれません。どうすればこれを解決できますか?
python - scikit Learnでは、数値と公称値が混在するデータをどのように扱うのですか?
scikit-learn の計算は NumPy に基づいているため、すべてが行列または配列であることはわかっています。
このパッケージは混合データ (数値と公称値) をどのように処理しますか?
たとえば、製品には「色」と「価格」という属性があり、色は公称値で、価格は数値です。公称データを数値化するための「DictVectorizer」というモデルがあることに気付きました。たとえば、次の 2 つの製品があります。
「DictVectorizer」の結果は次のようになります。
属性「色」にさまざまな値が多数ある場合、マトリックスは非常にまばらになります。また、機能が長いと、決定木などの一部のアルゴリズムのパフォーマンスが低下します。
ダミーコードを作成せずに公称値を使用する方法はありますか?
memory - scikit と pandas: 大規模データのフィッティング
scikit-learn を使用して、メモリの問題を発生させずに大きな csv データ (~75MB) でモデルをトレーニングするにはどうすればよいですか?
プログラミング環境として IPython ノートブックを使用し、pandas+sklearn パッケージを使用して、kaggle の数字認識チュートリアルからのデータを分析しています。
データはウェブページ、私のコードへのリンクで利用できます。エラーメッセージは次のとおりです。
KNeighborsClassifier
予測に使用されます。
問題:
read_csv 関数を使用して大規模なデータセットをロードすると、「MemoryError」が発生します。この問題を一時的に回避するには、カーネルを再起動する必要があります。その後、read_csv 関数はファイルを正常にロードしますが、同じセルを再度実行すると同じエラーが発生します。
read_csv
関数がファイルを正常にロードしたら、に変更を加えた後dataframe
、機能とラベルを KNeighborsClassifier の fit() 関数に渡すことができます。この時点で、同様のメモリ エラーが発生します。
私は次のことを試しました:
CSV ファイルをチャンク単位で反復処理し、それに応じてデータを適合させますが、問題は、予測モデルがデータのチャンクに対して毎回上書きされることです。
メモリの問題に遭遇することなく、モデルを正常にトレーニングするにはどうすればよいと思いますか?
python - 頻度のあるNgramのPythonリスト
テキストから最も人気のあるngramを取得する必要があります。Ngramの長さは1〜5ワードである必要があります。
バイグラムとトリグラムの入手方法を知っています。例えば:
しかし、scikit-learnはさまざまな長さのngramを取得できることがわかりました。たとえば、長さが1〜5のngramを取得できます。
ただし、WordNGramAnalyzerは非推奨になりました。私の質問は、テキストからN個のベストワードコロケーションを取得する方法です。コロケーションの長さは1〜5です。また、このコロケーション/ngramのFreqListを取得する必要があります。
nltk / scikitでそれを行うことはできますか?1つのテキストからさまざまな長さのngramの組み合わせを取得する必要がありますか?
たとえば、NLTKバイグラムとトリグラムを使用します。トリグラムにビットグラムが含まれている場合や、トリグラムがより大きな4グラムの一部である場合などです。例えば:
ビットグラム:こんにちは私のトリグラム: こんにちは私の名前
トリグラムからバイグラムを除外する方法は知っていますが、より良い解決策が必要です。
csv - CSVからscikit-learnへのカテゴリデータのインポート
CSVファイルからデータをインポートしてscikit-learnで使用したいと思います。数値データのカテゴリデータが混在しています。
この表現を純粋な数値表現に変換する必要があります。この表現では、カテゴリデータポイントが複数のバイナリ列に変換されます。
これを行うユーティリティ、またはデータを反復処理してこの表現を取得する簡単な方法はありますか?