“naivebayes”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1066 参照

python - scikit-learn DictVectorizer に機能を追加するには?

scikit-learn で MultinomialNB モデルを使用してスパム検出器をトレーニングしています。DictVectorizer クラスを使用して、トークンを単語数 (つまり、機能) に変換します。到着した新しいデータ (この場合は、アプリサーバーに着信するチャットメッセージの形式) を使用して、時間の経過とともにモデルをトレーニングできるようにしたいと考えています。これには、partial_fit 関数が役に立ちそうです。

ただし、最初に「トレーニング」された後に DictVectorizer のサイズを拡大する方法がわかりません。見たことのない新しい機能/単語が到着した場合、それらは単に無視されます。私がやりたいことは、モデルの現在のバージョンと DictVectorizer をピクルして、新しいトレーニングセッションを行うたびに更新することです。これは可能ですか？

2015-04-09T23:25:20.470

0 投票する

1 に答える

145 参照

python - 係数の次元が 1 つしかないのはなぜですか?

いくつかのレビューデータに対して感傷的な分析を行おうとしています。応答変数は「正」または「負」です。モデルを実行しましたが、係数は 1 次元のみです。応答変数が 2 つあるため、2 次元である必要があると思います。これがなぜなのかを理解するための助けをいただければ幸いです。

最終行は (1L、6L) を出力します。ネガティブとポジティブの両方の有益な機能を理解しようとしていますが、1L であるため、両方の応答について同じ情報が得られます。

ありがとうございました！

python scikit-learn naivebayes

2015-04-11T19:04:24.090

0 投票する

0 に答える

469 参照

r - R で Naive Bayes を使用する方法

ラベルは 1 から 5 までの数字です。

このコードは SVM では機能しますが、単純ベイズ分類器では機能しません。具体的には、y_pred_svm は数値のベクトルですが、y_pred_bayes はそうではありません。

パッケージ内のnaiveBayes関数の例をたくさん見つけましたが、データとラベルは別々の配列ではありません。誰でも私を助けることができますか？ありがとう。

r naivebayes

2015-04-11T21:01:59.717

0 投票する

2 に答える

1564 参照

python - トレーニングセットに含まれていない単語を使用した分類の予測 (単純ベイズ)

結果が「ネガティブ」か「ポジティブ」かを予測する Naive Bayes モデルを作成しました。私が抱えている問題は、モデルにないいくつかの単語を含む新しいデータセットでモデルを実行することです。新しいデータセットを予測するために受け取るエラーは次のとおりです。

ValueError: 6 つの機能を持つ入力が必要でしたが、代わりに 4 を取得しました

モデルに Laplace Smoother を配置する必要があることを読みましたが、Bernoulli() の既定のアルファは既に 1 です。エラーを修正するために他に何ができますか? ありがとうございました

python machine-learning scikit-learn naivebayes

2015-04-14T18:41:41.273

0 投票する

3 に答える

1631 参照

statistics - 交差検証の目的は何ですか?

私は今、機械学習に関する本を読んでいます。

著者NaiveBayesClassifierに取り組むことは、交差検証法を非常に支持しています。

彼は、データを 10 個のバケット (ファイル) に分割し、毎回異なるバケットを差し控えて、そのうちの 9 個をトレーニングすることを提案しています。

これまでのところ、私がよく知っている唯一のアプローチは、データをトレーニングセットとテストセットに 50%/50% の比率で分割し、単純に分類子を一度にトレーニングすることです。

クロスバリデーションを使用する利点を誰か説明してもらえますか?

statistics classification cross-validation naivebayes

2015-04-19T18:02:01.327

0 投票する

1 に答える

1173 参照

document-classification - ドキュメント分類のための LSA/LSI と Naive Bayes の組み合わせ

私はgensimパッケージとベクトル空間モデル全般に不慣れで、LSA 出力を正確にどうすればよいかわかりません。

私の目標の概要を簡単に説明すると、トピックモデリングを使用して Naive Bayes Classifier を拡張し、レビュー (肯定的または否定的) の分類を改善したいと思います。これは私が読んでいる素晴らしい論文で、私のアイデアを形作っていますが、実装についてはまだ少し混乱しています..

Naive Bayes の作業コードは既に取得しています。現在、機能とラベルが正または負のいずれかであるため、ユニグラムバッグオブワードを使用しています。

これが私のgensimコードです

ここに出力があります

提案や一般的なコメントをいただければ幸いです。

document-classification gensim naivebayes latent-semantic-indexing latent-semantic-analysis

2015-04-29T01:23:12.277

0 投票する

0 に答える

222 参照

python - ラベル付きカテゴリを使用しているときに単純ベイズテキスト分類器のパフォーマンスが低下するのはなぜですか?

多項単純ベイズを使用してテキスト分類モデルを作成しようとしています。私のデータには 10 種類のカテゴリがあります。モデルのトレーニング中に、これらのカテゴリを整数形式で表しました。

トレーニングデータ形式:

これは私のコードスニペットがどのように見えるかです:

今、奇妙な動作を分析しましたが、カテゴリの整数表現を使用している間、モデルの精度は 82% で、文字列表現を使用している場合、精度は 90% に急上昇しました。

私の質問は、2 番目の状況でモデルが異なる (より良い) 動作をするのはなぜですか?

PS私はsklearnライブラリを使用しています。

python machine-learning scikit-learn text-classification naivebayes

2015-05-06T15:34:54.727

問題タブ [naivebayes]

Reference