単純ベイジアン分類のオレンジフレームワークを試しました。
- メソッドは非常に直感的ではなく、ドキュメントは非常に整理されていません。ここで誰かが推奨する別のフレームワークを持っていますか?
- 今のところほとんど使って
NaiveBayesian
います。
nltk を使用することを
NaiveClassification
考えていましたが、連続変数を処理できるとは考えていません。
私のオプションは何ですか?
単純ベイジアン分類のオレンジフレームワークを試しました。
NaiveBayesian
います。nltk を使用することをNaiveClassification
考えていましたが、連続変数を処理できるとは考えていません。
私のオプションは何ですか?
scikit-learn には、ガウス単純ベイジアン分類器が実装されています。一般に、このライブラリの目標は、読みやすく使いやすいコードと効率の間の適切なトレードオフを提供することです。うまくいけば、アルゴリズムの作業を学ぶための優れたライブラリになるはずです。
ここから始めるのがよいでしょう。これは、単純なベイジアン分類器の Python 実装の完全なソース コード (テキスト パーサー、データ ストレージ、および分類器) です。完全ではありますが、1 回のセッションで消化するにはまだ小さいです。コードはかなりよく書かれており、コメントも充実していると思います。これは本Programming Collective Intelligenceのソース コード ファイルの一部です。
ソースを取得するには、リンクをクリックし、メイン フォルダー「PCI_Code」から zip を dl して解凍し、python ソース ファイル「docclass.py」があるフォルダー「chapter 6」に移動します。これは、ベイジアン スパム フィルターの完全なソース コードです。トレーニング データ (電子メール) は、同じフォルダー ('test.db') にも含まれる sqlite データベースに保持されます。必要な唯一の外部ライブラリは、sqlite (pysqlite) への python バインディングです。まだインストールしていない場合は、sqlite 自体も必要です)。
自然言語を処理している場合は、 Natural Language Toolkitを確認してください。
他のものを探している場合は、PyPI で簡単に検索してください。
pebl
連続変数を処理するようです。
Divmod Reverendは、Pythonベイズ分類器を使用するのに最も簡単で簡単であることがわかりました。
Paul GrahamのLISPのものを取り、Pythonに変換しました http://www.paulgraham.com/spam.html
SpamBayesもあります。これは、スパムだけでなく、一般的な単純ベイズ分類器として使用できると思います。