“scikit-learn”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

4007 参照

python - 交差検定を使用したscikits混同行列

scikitsインターフェースを使用して、相互検証（stratifiedKfold）を使用してsvm分類器をトレーニングしています。（kの）各テストセットについて、分類結果を取得します。すべての結果を含む混同行列が必要です。Scikitsには混同行列インターフェースがあります：sklearn.metrics.confusion_matrix（y_true、y_pred）私の質問は、y_trueとy_predの値をどのように累積する必要があるかです。それらは配列（numpy）です。k-foldパラメーターに基づいて配列のサイズを定義する必要がありますか？そして、結果ごとに、y_trueとy-predを配列に追加する必要がありますか????

2012-03-16T09:05:59.423

0 投票する

1 に答える

2332 参照

python - ユーザー定義の距離メトリックを使用して scikits 学習で k 最近傍を選択する方法はありますか?

コサイン類似度メトリックとその他のユーザー定義メトリックを使用して、一連のベクトルに K 個の最近傍を使用する必要があります。sckits Learnを使用してそれを達成するにはどうすればよいですか? 見つけましsklearn.neighbors.KNeighborsClassifierたが、ユーザー定義メトリックのオプションを見つけることができませんでした。現在、最新バージョンの scikits Learn 0.11 を使用しています。

python machine-learning scikits scikit-learn

2012-04-12T14:01:22.577

0 投票する

1 に答える

492 参照

python - RFECVでのScikitLDAの使用

再帰的特徴ランク付け機能iscikit-learn（http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html#sklearn.feature_selection.RFECV）を使用しています。ただし、推定量としてLDA分類器を使用したいと思います。私はこのコードを持っています：

このコードを実行すると、エラーが発生します。RFEで同じコードを実行すれば、問題ありません。または、SVR分類子を使用すると、問題なく機能します。私の質問は、メソッドLDA（）を呼び出したときに分類器を取得しているかどうかです。RFECVは「推定量」の分類器を使用して特徴をランク付けします。LDAの問題は何ですか？

python machine-learning scikit-learn scikits

2012-04-18T14:03:45.187

0 投票する

5 に答える

11174 参照

python - OS X に scikit-learn をインストールできない

scikit-learn をインストールできません。ソースからビルドするか、pipを介して問題なく他のパッケージをインストールできます。scikit-learn については、GitHub でプロジェクトのクローンを作成し、pip 経由でインストールしようとしましたが、成功しませんでした。誰でも助けてもらえますか？これが私の一部ですpip.log：

python scikit-learn pip

2012-04-22T12:45:28.813

0 投票する

1 に答える

690 参照

python - python、scikits-learn:スパース特徴ベクトルをサポートする学習方法はどれですか?

30.000 テキストのデータセットで KernelPCA を実行しようとすると、メモリエラーが発生します。RandomizedPCA は問題なく動作します。何が起きているかというと、RandomizedPCA はスパース配列で機能し、KernelPCA は機能しないということです。

scikits-learn でスパース配列サポートを使用して現在実装されている学習方法のリストを持っている人はいますか?

python machine-learning scikits scikit-learn

2012-04-24T18:56:11.960

0 投票する

3 に答える

23158 参照

python - sklearnを使用してエラー率を調べる

Pythonでsvm分類器を使用してエラー率を調べたいのですが、同じことを達成するために私が取っているアプローチは次のとおりです。

ただし、このアプローチは機能しません。また、sklearnのスコア関数は平均精度を提供します...しかし、交差検定を実行してエラー率を見つけたいので、それを使用することはできません。エラー率を見つけるためにsklearnで適切な関数を提案してください。

python machine-learning svm scikits scikit-learn

2012-04-25T15:33:21.083

0 投票する

1 に答える

2425 参照

python - scikit Learn: カスタマイズされた CountVectorizer と ChiSquare の作成に関する問題

次のコードがあります (こちらのサンプルに基づく) が、機能していません。

を呼び出すと、次のエラーが表示されますfit_transform。

ドキュメントによると、CountVectorizer は次のように作成する必要がありますvectorizer = CountVectorizer(tokenizer=my_tokenizer)。ただし、これを行うと、次のエラーが発生します"got an unexpected keyword argument 'tokenizer'"。

私の実際の scikit-learn のバージョンは 0.10 です。

python machine-learning scikits scikit-learn

2012-04-29T15:22:51.610

0 投票する

1 に答える

2764 参照

python - scikit learn：必要な量のベスト機能（k）が選択されていません

カイ二乗（scikit-learn 0.10）を使用して最適な機能を選択しようとしています。合計80のトレーニングドキュメントから最初に227の機能を抽出し、これらの227の機能から上位10の機能を選択します。

結果は以下のとおりです。

kに等しく設定すると、それらは似てい100ます。

なぜこれが起こるのですか？

*編集：完全な出力例。クリッピングなしで、30を要求し、代わりに32を取得しました。

クリッピングのない別の例では、10を要求し、代わりに11を取得します。

python machine-learning scikit-learn chi-squared

2012-04-30T04:45:32.640

0 投票する

1 に答える

888 参照

machine-learning - scikit Learn を使用して Web サイトの適切なコンテンツを予測する

ウェブサイトからの 1 年分のデータがあります。機械学習アルゴリズムをトレーニングして、特定の変数 (単語数、投稿時刻など) に基づいて新しいコンテンツの成功を予測したいと考えています。

新しいデータを取得し、それに関する特定の特性を入力して、サイトでのパフォーマンスの確率を取得したいと考えています。

さらに、将来のデータをトレーニングセットに追加し続け、アルゴリズムを継続的にトレーニングして、時間の経過とともに賢くなるようにしたいと考えています。

私の質問は: scikit-learn を使用してこれを達成するにはどうすればよいですか?

machine-learning scikit-learn prediction

2012-05-01T01:44:39.120

0 投票する

2 に答える

5176 参照

python - scikitsの学習とnltk：単純ベイズ分類器のパフォーマンスは大きく異なります

2つの単純ベイズ分類器を比較しています。1つはNLTKからのもので、もう1つはscikit-learnからのものです。私はマルチクラス分類問題（3つのクラス：ポジティブ（1）、ネガティブ（-1）、ニュートラル（0））を扱っています。

特徴選択を実行せずに（つまり、利用可能なすべての機能を使用して）、70,000インスタンスのトレーニングデータセット（ノイズラベル、インスタンス分布が17％ポジティブ、4％ネガティブ、78％ニュートラル）を使用して、2つの分類器をトレーニングします、最初のものはnltk.NaiveBayesClassifierであり、2番目のものはsklearn.naive_bayes.MultinomialNB（with fit_prior=True）です。

トレーニング後、30,000インスタンスのテストセットで分類子を評価したところ、次の結果が得られました。

Scikitの分類器は全体的な精度と精度が優れていますが、少なくとも私のデータでは、NLTKの分類器と比較して再現率が非常に低いことに気づきました。それらが（ほぼ）同じ分類子である可能性があることを考慮すると、これは奇妙ではありませんか？

python machine-learning nltk scikits scikit-learn

2012-05-02T03:19:36.833

問題タブ [scikit-learn]

Reference