テキスト レビューが偽物 (スパム) または本物である確率を計算するツールを構築しています。
スパムまたは非スパムとしてマークされたレビューの注釈付きデータセットがあります。svm を使用して分類子を作成しましたが、入力ドキュメントをスパムまたは非スパムとして分類するだけです。一方、ドキュメントがスパムである可能性を表す 0 から 1 までの数値を表示するツールが必要です。誰かが私を正しい方向に向けてください。
テキスト レビューが偽物 (スパム) または本物である確率を計算するツールを構築しています。
スパムまたは非スパムとしてマークされたレビューの注釈付きデータセットがあります。svm を使用して分類子を作成しましたが、入力ドキュメントをスパムまたは非スパムとして分類するだけです。一方、ドキュメントがスパムである可能性を表す 0 から 1 までの数値を表示するツールが必要です。誰かが私を正しい方向に向けてください。
(明示的な確率ではなく) 連続値のスコアが必要な場合は、SVM から超平面までの距離を使用できます。これは信頼度の標準的な尺度であり、ポイントがクラスにどの程度「入っている」かを確認できます。
より広範な確率モデルの一部として実際に分類を使用したい場合、真の確率解釈が必要な場合は、SVM スコアを確率に変換する方法の 1 つを使用できますが、これらは多少改良されており、持っていません。素晴らしい理論的根拠。代わりに、ロバストな確率的代替手段として、最大エントロピーとも呼ばれるロジスティック回帰分類子を確認することをお勧めします。これには、SVM のような識別モデルの利点がありますが、自然で固有の確率論的基盤があります。
SVMで確率を取得できます。libsvm(-bパラメーター)を見てください。
自分で書くのではなく、akismetにプラグインしてみませんか? スパム検出はベイジアンであり、提供するデータが多いほどパフォーマンスが向上します。