リンク(およびおそらくテキスト)が多いWebページからナビゲーションに使用されるメニューを抽出する方法を探しています。私が興味を持っているページは、非常に単純で有効な XHTML であり、メニューがページの最初または最後のどこかにあることは間違いありません。しかし、それが正確にどこにあるかを見つけるための優れた一般的な方法は、これまでのところ私にはわかりませんでした.
簡単なメモ: 私は読みやすさのようなものを探しているのではありません - メインの記事を見つけて他のすべてを取り除きますが、具体的にメニューを見つける何かを探しています. また、「後継者として多くのリンクを持つ要素を見つける」という単純な方法はあまりうまく機能しません。ページにはかなり長いリンクのリストが含まれる傾向があるためです。
編集: リンクされているページのコンテンツを取得するためのメニューが必要です (情報抽出プロジェクト用の Web スクレーパーを構築しています)。私が使用するいくつかのサンプルページ:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/ (注: ここでは、サイドバー ナビゲーションではなく、出版物/ダウンロードを指すメニューが必要ですが、読みやすさなどを使用すると、サイド バー ナビゲーションを取り除く方が簡単です) .