問題タブ [naivebayes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 単純ベイズ分類器 - 精度
15 の属性を持つ 7000 のインスタンスのデータ セットで、Weka の Naive Bayes 分類子を使用しています。私のベースライン精度は、ZeroR を使用して 87.5% です。データの前処理の一環として、ゼロ平均と単位分散でデータセットを正規化し、フィルターを適用してデータセットをランダム化しました。トレーニング (70%) とテスト (30%) のセットを使用し、データセット全体で 10 倍の交差検証を行い、教師あり離散化と属性選択を使用しました。得られた分類子の最高精度は 93.43% です。ベースラインの精度に関して、これは小さな改善ですか?
machine-learning - 単純ベイズ分類器を使用したオピニンマイニング
ツイートを肯定的または否定的な意見として分類しています。分類には単純ベイズ分類器が一般的に使用されていると聞いたので、自分のプロジェクト用に独自の単純ベイズ分類器を作成したいと考えています。私はデータマイニングが初めてで、単純ベイズ分類器は単純ベイズの使用方法と使用方法を理解できません。誰でも私を助けることができますか??
machine-learning - 数値属性に単純ベイを使用する
数値データの分類に単純ベイズを使用できますか? 文の長さ、単語の長さなどの著者のスタイルを抽出し、それを使用して匿名ドキュメントの著者を予測するシステムがあります。ナイーブ ベイズを使用して、これらの数値データに基づいて著者を分類できますか。それ以外の場合は、より良い代替案を提案できます。
classification - 分類精度から曲線下面積を計算する
課題があります:
Naive Bayes を使用して、2 つのクラスを持ついくつかのデータでモデルを構築しました (モデルは 2 つの確率を返します - 1 つは陽性クラス、もう 1 つは陰性クラス)。しきい値を 0.5 に設定して、ROC 曲線 AUC = 0.8 および分類精度 CA = 0.6 の下の領域を計算しました (正のクラスのいくつかの例の確率が 0.5 よりも高い場合、その例の正のクラスを予測し、それ以外の場合は負のクラスを予測します)。すると、しきい値を 0.3 に設定すると、分類精度は CA = 0.7 になることがわかりました。2 番目のしきい値の AUC は? 結果が初期データに依存する場合は、すべての可能性を提示してください。
どうすればそれを計算できますか?
machine-learning - 交差検証を使用すると精度が向上し、交差検証を使用しないと精度が低下します
相互検証について質問があります。単純ベイズ分類器を使用して、ブログ投稿を著者別に分類しています。k 分割交差検証を使用せずにデータセットを検証すると、0.6 の精度スコアが得られますが、k 分割交差検証を行うと、各分割の精度がはるかに高くなります (0.8 を超えます)。
例えば:
(手動で分割): 検証セット サイズ: 1452、トレーニング セット サイズ: 13063、精度: 0.6033057851239669
その後
(k フォールドあり): フォールド 0 -> トレーニング セット サイズ: 13063、検証セット サイズ: 1452 精度: 0.8039702233250621 (すべてのフォールドが 0.8 以上)
等...
なぜこれが起こるのですか?
binary - Naive Bayes: 観測変数の異種 CPD
離散変数と連続変数の組み合わせを使用して、バイナリ分類に単純ベイズ モデルを使用しています。私の質問は、連続観測変数と離散観測変数に異なる条件付き確率分布 (CPD) 関数を使用できますか? たとえば、連続変数にはガウス CPD を使用し、離散変数にはいくつかの決定論的 CPD を使用しますか?
ありがとうございました