問題タブ [scikit-learn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 交差検定を使用したscikits混同行列
scikitsインターフェースを使用して、相互検証(stratifiedKfold)を使用してsvm分類器をトレーニングしています。(kの)各テストセットについて、分類結果を取得します。すべての結果を含む混同行列が必要です。Scikitsには混同行列インターフェースがあります:sklearn.metrics.confusion_matrix(y_true、y_pred)私の質問は、y_trueとy_predの値をどのように累積する必要があるかです。それらは配列(numpy)です。k-foldパラメーターに基づいて配列のサイズを定義する必要がありますか?そして、結果ごとに、y_trueとy-predを配列に追加する必要がありますか????
python - ユーザー定義の距離メトリックを使用して scikits 学習で k 最近傍を選択する方法はありますか?
コサイン類似度メトリックとその他のユーザー定義メトリックを使用して、一連のベクトルに K 個の最近傍を使用する必要があります。sckits Learnを使用してそれを達成するにはどうすればよいですか? 見つけましsklearn.neighbors.KNeighborsClassifier
たが、ユーザー定義メトリックのオプションを見つけることができませんでした。現在、最新バージョンの scikits Learn 0.11 を使用しています。
python - RFECVでのScikitLDAの使用
再帰的特徴ランク付け機能iscikit-learn(http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV)を使用しています。ただし、推定量としてLDA分類器を使用したいと思います。私はこのコードを持っています:
このコードを実行すると、エラーが発生します。RFEで同じコードを実行すれば、問題ありません。または、SVR分類子を使用すると、問題なく機能します。私の質問は、メソッドLDA()を呼び出したときに分類器を取得しているかどうかです。RFECVは「推定量」の分類器を使用して特徴をランク付けします。LDAの問題は何ですか?
python - OS X に scikit-learn をインストールできない
scikit-learn をインストールできません。ソースからビルドするか、pipを介して問題なく他のパッケージをインストールできます。scikit-learn については、GitHub でプロジェクトのクローンを作成し、pip 経由でインストールしようとしましたが、成功しませんでした。誰でも助けてもらえますか?これが私の一部ですpip.log
:
python - python、scikits-learn:スパース特徴ベクトルをサポートする学習方法はどれですか?
30.000 テキストのデータ セットで KernelPCA を実行しようとすると、メモリ エラーが発生します。RandomizedPCA は問題なく動作します。何が起きているかというと、RandomizedPCA はスパース配列で機能し、KernelPCA は機能しないということです。
scikits-learn でスパース配列サポートを使用して現在実装されている学習方法のリストを持っている人はいますか?
python - sklearnを使用してエラー率を調べる
Pythonでsvm分類器を使用してエラー率を調べたいのですが、同じことを達成するために私が取っているアプローチは次のとおりです。
ただし、このアプローチは機能しません。また、sklearnのスコア関数は平均精度を提供します...しかし、交差検定を実行してエラー率を見つけたいので、それを使用することはできません。エラー率を見つけるためにsklearnで適切な関数を提案してください。
python - scikit Learn: カスタマイズされた CountVectorizer と ChiSquare の作成に関する問題
次のコードがあります (こちらのサンプルに基づく) が、機能していません。
を呼び出すと、次のエラーが表示されますfit_transform
。
ドキュメントによると、CountVectorizer は次のように作成する必要がありますvectorizer = CountVectorizer(tokenizer=my_tokenizer)
。ただし、これを行うと、次のエラーが発生します"got an unexpected keyword argument 'tokenizer'"
。
私の実際の scikit-learn のバージョンは 0.10 です。
python - scikit learn:必要な量のベスト機能(k)が選択されていません
カイ二乗(scikit-learn 0.10)を使用して最適な機能を選択しようとしています。合計80のトレーニングドキュメントから最初に227の機能を抽出し、これらの227の機能から上位10の機能を選択します。
結果は以下のとおりです。
k
に等しく設定すると、それらは似てい100
ます。
なぜこれが起こるのですか?
*編集:完全な出力例。クリッピングなしで、30を要求し、代わりに32を取得しました。
クリッピングのない別の例では、10を要求し、代わりに11を取得します。
machine-learning - scikit Learn を使用して Web サイトの適切なコンテンツを予測する
ウェブサイトからの 1 年分のデータがあります。機械学習アルゴリズムをトレーニングして、特定の変数 (単語数、投稿時刻など) に基づいて新しいコンテンツの成功を予測したいと考えています。
新しいデータを取得し、それに関する特定の特性を入力して、サイトでのパフォーマンスの確率を取得したいと考えています。
さらに、将来のデータをトレーニング セットに追加し続け、アルゴリズムを継続的にトレーニングして、時間の経過とともに賢くなるようにしたいと考えています。
私の質問は: scikit-learn を使用してこれを達成するにはどうすればよいですか?
python - scikitsの学習とnltk:単純ベイズ分類器のパフォーマンスは大きく異なります
2つの単純ベイズ分類器を比較しています。1つはNLTKからのもので、もう1つはscikit-learnからのものです。私はマルチクラス分類問題(3つのクラス:ポジティブ(1)、ネガティブ(-1)、ニュートラル(0))を扱っています。
特徴選択を実行せずに(つまり、利用可能なすべての機能を使用して)、70,000インスタンスのトレーニングデータセット(ノイズラベル、インスタンス分布が17%ポジティブ、4%ネガティブ、78%ニュートラル)を使用して、2つの分類器をトレーニングします、最初のものはnltk.NaiveBayesClassifierであり、2番目のものはsklearn.naive_bayes.MultinomialNB(with fit_prior=True
)です。
トレーニング後、30,000インスタンスのテストセットで分類子を評価したところ、次の結果が得られました。
Scikitの分類器は全体的な精度と精度が優れていますが、少なくとも私のデータでは、NLTKの分類器と比較して再現率が非常に低いことに気づきました。それらが(ほぼ)同じ分類子である可能性があることを考慮すると、これは奇妙ではありませんか?