問題タブ [naivebayes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
3942 参照

oop - オブジェクト指向ベイジアン スパム フィルタリング?

スパムとテキスト分類のためのベイジアン フィルタリングの適切でクリーンなオブジェクト指向プログラミング (OOP) 実装があるかどうか疑問に思っていました。これは学習目的のためだけです。

0 投票する
4 に答える
2135 参照

naivebayes - 単純なベイジアン スパム フィルタリングの有効性

スパムをフィルタリングするための単純なベイジアン フィルタリングはどの程度効果的ですか?

スパマーは、スパムに関係のない余分な単語を詰め込んで簡単にバイパスすると聞きました。それを防ぐために、ベイジアン フィルターでどのようなプログラミング手法を使用できますか?

0 投票する
6 に答える
20453 参照

python - Pythonの単純ベイジアン分類器はありますか?

  • 単純ベイジアン分類のオレンジフレームワークを試しました。

    • メソッドは非常に直感的ではなく、ドキュメントは非常に整理されていません。ここで誰かが推奨する別のフレームワークを持っていますか?
    • 今のところほとんど使ってNaiveBayesianいます。
  • nltk を使用することをNaiveClassification考えていましたが、連続変数を処理できるとは考えていません。

私のオプションは何ですか?

0 投票する
5 に答える
2374 参照

algorithm - 単純ベイズスパムフィルターの質問

単純ベイズ分類モデルを使用してスパムフィルターを実装することを計画しています。

オンラインでは、単純ベイズ分類に関する多くの情報を目にしますが、問題は、それがどのように行われたかを明確に述べるよりも、数学的なものがたくさんあることです。そして問題は、私が数学者というよりもプログラマーであるということです(そうです、私は学校で確率とベイズの定理を学びましたが、長い間連絡が取れておらず、今はそれを学ぶ余裕がありません(ほぼ持っています実用的なプロトタイプを思い付くまで3週間))。

ですから、誰かが私に数学者よりもプログラマーのために説明した場所を説明したり指摘したりできれば、それは大きな助けになるでしょう。

PS:ちなみに、知りたいのであれば、Cで実装する必要があります。:(

よろしく、マイクロカーネル

0 投票する
1 に答える
6247 参照

machine-learning - 「Bag of Words」アプローチを使用したトピック検出のための単純ベイジアン

特定のドキュメントまたは単語の流れのトピックを見つけるために、単純なベイズイアン アプローチを実装しようとしています。これを調べることができるナイーブベイジアンアプローチはありますか?

また、辞書の改善にも努めています。最初に、トピックにマップする単語がたくさんあります (ハードコードされています)。すでにマップされている単語以外の単語の出現に応じて。そして、これらの単語の出現に応じて、それらをマッピングに追加したいので、トピックにマップされる新しい単語について改善および学習します。また、単語の確率を変更します。

これを行うにはどうすればよいですか?私のアプローチは正しいですか?

実装に最適なプログラミング言語はどれですか?

0 投票する
3 に答える
13990 参照

python - ドキュメントをカテゴリに分類する

トピック カテゴリでタグ付けされた約 30 万のドキュメントが Postgres データベースに格納されています (合計で約 150 のカテゴリがあります)。まだカテゴリがないドキュメントが 15 万件あります。プログラムでそれらを分類する最良の方法を見つけようとしています。

私はNLTKとその Naive Bayes Classifier を調べてきました。良い出発点のように思えます (このタスクのためのより良い分類アルゴリズムを提案できるなら、私はすべて耳にします)。

私の問題は、NaiveBayesClassifier を 150 カテゴリ/300k ドキュメントすべてで一度にトレーニングするのに十分な RAM がないことです (5 つのカテゴリでトレーニングすると 8GB が使用されます)。さらに、より多くのカテゴリでトレーニングするにつれて、分類器の精度が低下するようです (2 つのカテゴリで 90% の精度、5 で 81%、10 で 61% の精度)。

一度に 5 つのカテゴリで分類器をトレーニングし、150,000 のドキュメントすべてを分類器で実行して、一致するかどうかを確認する必要がありますか? これはうまくいくように思えますが、どのカテゴリにも実際には一致しないドキュメントが、利用可能な最良の一致であるという理由だけで分類子によって押し付けられるという多くの誤検知があることを除いて... ありますか?ドキュメントがどのカテゴリにも当てはまらない場合に備えて、分類子に「上記のいずれでもない」オプションを設定する方法はありますか?

ここに私のテストクラスがあります http://gist.github.com/451880

0 投票する
6 に答える
51555 参照

machine-learning - 単純ベイズ分類器の精度を向上させる方法は?

Naive Bayes Classifier を使用して、数千のドキュメントを 30 の異なるカテゴリに分類しています。Naive Bayes Classifier を実装し、いくつかの機能選択 (主に不要な単語のフィルタリング) を使用して、約 30% のテスト精度と 45% のトレーニング精度を得ました。これはランダムよりもはるかに優れていますが、より良くしたいと考えています。

私はNBでAdaBoostを実装しようとしましたが、かなり良い結果が得られるようには見えません. 精度が向上する可能性のある NB の拡張機能を他に知っていますか?

0 投票する
3 に答える
3690 参照

python - Python でのコンテンツ分類のための Orange と NLTK の比較

コンテンツ分類モジュールが必要です。ベイジアン分類器は、私が探しているもののようです。Orange と NLTK のどちらを選ぶべきですか?

0 投票する
2 に答える
722 参照

ruby - Ruby の単純ベイズ

Rubyで単純ベイズ分類をしようとしています。

現在、http://ai4r.rubyforge.org/を使用しています。

浮動小数点値では機能せず、文字列値では精度が約 20% 低下しました。float/integer を使用すると、nil から integer への [] no 暗黙的な変換が得られます。float を to_s で変換します。

float 値を機能させる方法はありますか? そうでない場合、ルビーの ai4r に代わる宝石や、素朴なベイズの代替アルゴリズムは何ですか?