可読性などの一部のブラウザー プラグインは、Web ページから「記事」を抽出できます。誰かがそれを行う方法について考えていますか? 実際の記事と広告やコメントの違いは何ですか?
質問する
900 次
1 に答える
1
まあ、「実際の記事」をどのように定義したいかによって異なります...
HTML5 を考慮すると、Web ページはセマンティック タグで構成されます。<div>
意味的な意味をまったく持たないような要素でページを構築する必要はもうありません。HTML5 では、、、<section>
など<article>
を<header>
使用できます。これらの要素は、Web ページのメイン コンテンツが何であるかをアプリケーションにかなりよく理解させることができます (例: print<article>
や skip など<nav>
)。
もちろん、まだこれらのタグを使用しているページは多くありません。さらに、タグが乱用されて意味を失う可能性があります。その場合、HTML ドキュメント内の最大の要素を選択するなど、いくつかの統計に固執します。さらに、Web ページをスクレイピングする必要がある場合は、パターン マッチング アルゴリズムの修正版 (DIPRE など) を使用できます。
于 2012-09-13T19:16:51.693 に答える