何百万ものトレーニング例と +100k のバイナリ機能を備えた、大規模なナイーブ ベイズ用のライブラリが必要です。オンライン バージョンである必要があります (トレーニング後に更新可能)。また、1 つのインスタンスに対する複数の分類である上位 k の出力も必要です。精度はあまり重要ではありません。
目的は、自動テキスト分類アプリケーションです。
良いライブラリの提案は大歓迎です。
編集: ライブラリは Java であることが望ましいです。
何百万ものトレーニング例と +100k のバイナリ機能を備えた、大規模なナイーブ ベイズ用のライブラリが必要です。オンライン バージョンである必要があります (トレーニング後に更新可能)。また、1 つのインスタンスに対する複数の分類である上位 k の出力も必要です。精度はあまり重要ではありません。
目的は、自動テキスト分類アプリケーションです。
良いライブラリの提案は大歓迎です。
編集: ライブラリは Java であることが望ましいです。
ナイーブ ベイズ以外の学習アルゴリズムも許容できる場合は、最高のスケーラブルなテキスト分類アルゴリズム (オンライン確率的勾配降下法 + LDA) の 1 つであるという定評のあるVowpal Wabbit (C++) を確認してください。トップK出力を行うかどうかはわかりません。