algorithm - ウェブページで「記事」を見つけるアルゴリズムは?

Question

可読性などの一部のブラウザープラグインは、Web ページから「記事」を抽出できます。誰かがそれを行う方法について考えていますか? 実際の記事と広告やコメントの違いは何ですか?

score 1 · Accepted Answer

まあ、「実際の記事」をどのように定義したいかによって異なります...

HTML5 を考慮すると、Web ページはセマンティックタグで構成されます。<div>意味的な意味をまったく持たないような要素でページを構築する必要はもうありません。HTML5 では、、、<section>など<article>を<header> 使用できます。これらの要素は、Web ページのメインコンテンツが何であるかをアプリケーションにかなりよく理解させることができます (例: print<article>や skip など<nav>)。

もちろん、まだこれらのタグを使用しているページは多くありません。さらに、タグが乱用されて意味を失う可能性があります。その場合、HTML ドキュメント内の最大の要素を選択するなど、いくつかの統計に固執します。さらに、Web ページをスクレイピングする必要がある場合は、パターンマッチングアルゴリズムの修正版 (DIPRE など) を使用できます。

algorithm - ウェブページで「記事」を見つけるアルゴリズムは?

1 に答える 1

Related

Reference