私は現在、ウェブサイトを分類するデータベースを必要とするプロジェクトに取り組んでいます(例:cnn.com = news)。必要なのは大まかな分類だけです。すべてのURLを個別に分類する必要はありません。私たちはそのようなデータベースの通常のベンダーと話をしていますが、私たちが戻ってきたほとんどの見積もりは非常に高価であり、データベースをクエリするためにSDKを使用する必要があるなどの厄介な要件を課すことがよくあります。
その間、私もそのようなデータベースを自分で構築する可能性を模索してきました。これは5分の仕事ではないことを理解しているので、私はたくさんの研究をしています。
このテーマに関するさまざまな論文を読むと、単純ベイズ分類器が一般的にこれを行うための標準的なアプローチであるように思われます。ただし、多くの論文は、Web分類の精度を向上させるための拡張機能を提案しています。通常は、ハイパーリンク、ヘッダータグ、複数単語のフレーズ、URL、単語の頻度など、他のコンテキスト情報を利用します。
私は20のニュースグループテストデータセットに対してMahoutの単純ベイズ分類器を実験してきました。Webサイト分類への適用性を確認できますが、ユースケースの精度が心配です。
追加の属性を考慮に入れるためにMahoutのベイズ分類子を拡張する可能性を知っている人はいますか?どこから始めればよいかについてのポインタをいただければ幸いです。
または、完全に間違った木を吠えている場合は、私に知らせてください!