ウェブページからの広告である画像を検出するアプリを構築しようとしています。それらを検出すると、クライアント側での表示を許可しなくなります。
このStackoverflowの質問に答えた助けから、SVMが私の目標への最良のアプローチであると思いました。
そこで、SVMとSMOを自分でコーディングしました。UCIデータリポジトリから取得したデータセットには3280個のインスタンス(データセットへのリンク)があり、そのうちの約400個は広告画像を表すクラスからのものであり、残りは非広告画像を表すものです。
現在、最初の2800の入力セットを取得してSVMをトレーニングしています。しかし、正解率を調べた後、これらの2800の入力セットのほとんどが非広告画像クラスからのものであることがわかりました。そのため、そのクラスの精度は非常に高くなっています。
だから私はここで何ができますか?トレーニングするためにSVMにいくつの入力セットを与える必要がありますか?また、クラスごとにいくつの入力セットを提供しますか?
ありがとう。乾杯。(前の質問とは文脈が違うので、基本的に新しい質問をしました。ニューラルネットワーク入力データの最適化)
返信いただきありがとうございます。広告クラスと非広告クラスのC値が正しく導出されているかどうかを確認したいと思います。これについてフィードバックをください。
または、ここでドキュメントバージョンを確認できます。
ここでy1eqaulからy2へのグラフを見ることができます
ここでy1はy2と等しくありません