1

可読性などの一部のブラウザー プラグインは、Web ページから「記事」を抽出できます。誰かがそれを行う方法について考えていますか? 実際の記事と広告やコメントの違いは何ですか?

4

1 に答える 1

1

まあ、「実際の記事」をどのように定義したいかによって異なります...

HTML5 を考慮すると、Web ページはセマンティック タグで構成されます。<div>意味的な意味をまったく持たないような要素でページを構築する必要はもうありません。HTML5 では、、、<section>など<article><header> 使用できます。これらの要素は、Web ページのメイン コンテンツが何であるかをアプリケーションにかなりよく理解させることができます (例: print<article>や skip など<nav>)。

もちろん、まだこれらのタグを使用しているページは多くありません。さらに、タグが乱用されて意味を失う可能性があります。その場合、HTML ドキュメント内の最大の要素を選択するなど、いくつかの統計に固執します。さらに、Web ページをスクレイピングする必要がある場合は、パターン マッチング アルゴリズムの修正版 (DIPRE など) を使用できます。

于 2012-09-13T19:16:51.693 に答える