問題タブ [naivebayes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - scikit-learn DictVectorizer に機能を追加するには?
scikit-learn で MultinomialNB モデルを使用してスパム検出器をトレーニングしています。DictVectorizer クラスを使用して、トークンを単語数 (つまり、機能) に変換します。到着した新しいデータ (この場合は、アプリ サーバーに着信するチャット メッセージの形式) を使用して、時間の経過とともにモデルをトレーニングできるようにしたいと考えています。これには、partial_fit 関数が役に立ちそうです。
ただし、最初に「トレーニング」された後に DictVectorizer のサイズを拡大する方法がわかりません。見たことのない新しい機能/単語が到着した場合、それらは単に無視されます。私がやりたいことは、モデルの現在のバージョンと DictVectorizer をピクルして、新しいトレーニング セッションを行うたびに更新することです。これは可能ですか?
python - 係数の次元が 1 つしかないのはなぜですか?
いくつかのレビュー データに対して感傷的な分析を行おうとしています。応答変数は「正」または「負」です。モデルを実行しましたが、係数は 1 次元のみです。応答変数が 2 つあるため、2 次元である必要があると思います。これがなぜなのかを理解するための助けをいただければ幸いです。
最終行は (1L、6L) を出力します。ネガティブとポジティブの両方の有益な機能を理解しようとしていますが、1L であるため、両方の応答について同じ情報が得られます。
ありがとうございました!
r - R で Naive Bayes を使用する方法
ラベルは 1 から 5 までの数字です。
このコードは SVM では機能しますが、単純ベイズ分類器では機能しません。具体的には、y_pred_svm は数値のベクトルですが、y_pred_bayes はそうではありません。
パッケージ内のnaiveBayes関数の例をたくさん見つけましたが、データとラベルは別々の配列ではありません。誰でも私を助けることができますか?ありがとう。
python - トレーニング セットに含まれていない単語を使用した分類の予測 (単純ベイズ)
結果が「ネガティブ」か「ポジティブ」かを予測する Naive Bayes モデルを作成しました。私が抱えている問題は、モデルにないいくつかの単語を含む新しいデータセットでモデルを実行することです。新しいデータセットを予測するために受け取るエラーは次のとおりです。
ValueError: 6 つの機能を持つ入力が必要でしたが、代わりに 4 を取得しました
モデルに Laplace Smoother を配置する必要があることを読みましたが、Bernoulli() の既定のアルファは既に 1 です。エラーを修正するために他に何ができますか? ありがとうございました
statistics - 交差検証の目的は何ですか?
私は今、機械学習に関する本を読んでいます。
著者NaiveBayesClassifier
に取り組むことは、交差検証法を非常に支持しています。
彼は、データを 10 個のバケット (ファイル) に分割し、毎回異なるバケットを差し控えて、そのうちの 9 個をトレーニングすることを提案しています。
これまでのところ、私がよく知っている唯一のアプローチは、データをトレーニング セットとテスト セットに 50%/50% の比率で分割し、単純に分類子を一度にトレーニングすることです。
クロスバリデーションを使用する利点を誰か説明してもらえますか?
document-classification - ドキュメント分類のための LSA/LSI と Naive Bayes の組み合わせ
私はgensimパッケージとベクトル空間モデル全般に不慣れで、LSA 出力を正確にどうすればよいかわかりません。
私の目標の概要を簡単に説明すると、トピック モデリングを使用して Naive Bayes Classifier を拡張し、レビュー (肯定的または否定的) の分類を改善したいと思います。これは私が読んでいる素晴らしい論文で、私のアイデアを形作っていますが、実装についてはまだ少し混乱しています..
Naive Bayes の作業コードは既に取得しています。現在、機能とラベルが正または負のいずれかであるため、ユニグラム バッグ オブ ワードを使用しています。
これが私のgensimコードです
ここに出力があります
提案や一般的なコメントをいただければ幸いです。
python - ラベル付きカテゴリを使用しているときに単純ベイズテキスト分類器のパフォーマンスが低下するのはなぜですか?
多項単純ベイズを使用してテキスト分類モデルを作成しようとしています。私のデータには 10 種類のカテゴリがあります。モデルのトレーニング中に、これらのカテゴリを整数形式で表しました。
トレーニング データ形式:
これは私のコードスニペットがどのように見えるかです:
今、奇妙な動作を分析しましたが、カテゴリの整数表現を使用している間、モデルの精度は 82% で、文字列表現を使用している場合、精度は 90% に急上昇しました。
私の質問は、2 番目の状況でモデルが異なる (より良い) 動作をするのはなぜですか?
PS私はsklearnライブラリを使用しています。