無関係な Web サイトの HTML ページがいくつかあるが、それらには同じ全体的な情報が含まれているとします。その情報を柔軟な方法で抽出したい、つまり、すべてのページに対して少数のデータ抽出プログラム (理想的には 1 つ) を作成するだけでよいようにしたいのです。フィールドが (ブログの例を使用するため) であるとしauthor, date, title, text
ます。これらを示す HTML タグのクラスは、ページごとにまったく異なる可能性がありますが、ほぼ同じ方法でページに表示されます。たとえば、CNN のこの投稿とこの投稿を見てください。ゴーカーより。両方とも、実際に表示されるページのどこかに同じ情報 (必要な情報) が含まれています。そのデータを抽出する良い方法はありますか? 個別のエクストラクタを作成することはオプションですが、良い方法ではありません。使用したいデータセットには約 1,000 のスタイルのドキュメントがあります。
質問する
63 次