data-mining - Web ページからナビゲーションメニューを抽出するには、どのような手法がありますか?

Question

リンク（およびおそらくテキスト）が多いWebページからナビゲーションに使用されるメニューを抽出する方法を探しています。私が興味を持っているページは、非常に単純で有効な XHTML であり、メニューがページの最初または最後のどこかにあることは間違いありません。しかし、それが正確にどこにあるかを見つけるための優れた一般的な方法は、これまでのところ私にはわかりませんでした.

簡単なメモ: 私は読みやすさのようなものを探しているのではありません - メインの記事を見つけて他のすべてを取り除きますが、具体的にメニューを見つける何かを探しています. また、「後継者として多くのリンクを持つ要素を見つける」という単純な方法はあまりうまく機能しません。ページにはかなり長いリンクのリストが含まれる傾向があるためです。

編集: リンクされているページのコンテンツを取得するためのメニューが必要です (情報抽出プロジェクト用の Web スクレーパーを構築しています)。私が使用するいくつかのサンプルページ:

http://p2.cs.berkeley.edu/
http://www.cs.cornell.edu/bigreddata/maybms/ (注: ここでは、サイドバーナビゲーションではなく、出版物/ダウンロードを指すメニューが必要ですが、読みやすさなどを使用すると、サイドバーナビゲーションを取り除く方が簡単です) .

score 1 · Accepted Answer

{リンク内の子要素テキストの長さの合計} と {リンク外の子要素テキストの長さの合計}の比率を計算します。比率が一定のしきい値を超えており、リンクの絶対数が一定のしきい値を超えている場合、要素にメニューが含まれていると見なすことができます。

それだけでは不十分な場合は、レンダリングされた要素のページ上の位置を取得するために、(ブラウザーで、または webkit ライブラリを使用してヘッドレスで) ページをレンダリングする必要があります。

score 0 · Accepted Answer

Drag0nR3b0rnが述べたように、機能および手動/トレーニングされた決定木として、リンク/非リンクテキスト比率+一般的なメニューワードを使用する必要があります。クロールにはHtmlUnitをお勧めします

data-mining - Web ページからナビゲーション メニューを抽出するには、どのような手法がありますか?

2 に答える 2

Related

Reference

data-mining - Web ページからナビゲーションメニューを抽出するには、どのような手法がありますか?