html - さまざまな HTML ドキュメントから同じデータを抽出する

Question

無関係な Web サイトの HTML ページがいくつかあるが、それらには同じ全体的な情報が含まれているとします。その情報を柔軟な方法で抽出したい、つまり、すべてのページに対して少数のデータ抽出プログラム (理想的には 1 つ) を作成するだけでよいようにしたいのです。フィールドが (ブログの例を使用するため) であるとしauthor, date, title, textます。これらを示す HTML タグのクラスは、ページごとにまったく異なる可能性がありますが、ほぼ同じ方法でページに表示されます。たとえば、CNN のこの投稿とこの投稿を見てください。ゴーカーより。両方とも、実際に表示されるページのどこかに同じ情報 (必要な情報) が含まれています。そのデータを抽出する良い方法はありますか? 個別のエクストラクタを作成することはオプションですが、良い方法ではありません。使用したいデータセットには約 1,000 のスタイルのドキュメントがあります。

score 0 · Accepted Answer

これを行う唯一の方法は、これらすべての Web サイトで共通の要素を見つけることです (たとえば、同じ DOM 構造を共有している、同じ ID を持っている、またはのような前のタグで同じコンテンツが前にあるなど<h1>)。

それ以外の場合は、ケースごとに異なるルールまたは正規表現を記述する必要があります。

もちろん、HTML が異なっていてもコンテンツの意図/意味を認識できるほどインテリジェントなアルゴリズムを作成しない限り、単純でも迅速でもありません。

html - さまざまな HTML ドキュメントから同じデータを抽出する

1 に答える 1

Related

Reference