Qi と Davison によるWeb ページの分類: 機能とアルゴリズム で説明されているように、Web ページのサブジェクトと機能の両方の分類を行う必要があるプロジェクトに取り組んでいます。たとえば、特定のページが音楽に関するものかどうか、それがコレクション (リンクのリスト) またはトピック (コレクションからの 1 つの特定のリンクに関するデータ) ページであるかどうかを判断できるようにしたい場合があります。主題の分類については、 DMOZ ディレクトリデータのサブセットを使用して、特定のトピックでラベル付けされたサイトを正の例と負の例としてクロールすることにより、一連のトレーニング例を生成しています。
機能分類に役立つアプローチについては、あまり明確ではありません。基本的に、コレクション ページ、トピック ページなど、タイプ別にラベル付けされた一連の URL を見つける方法が必要です。手動でセットを生成することはおそらく不可能であり、Web ページの変更に応じて分類子を更新できるようにしたいと考えています。やや定期的に。トレーニング セットに使用するラベル付きデータを見つけることができる領域に関するアイデアはありますか?