html - HTMLドキュメント構造の処理

Question

HTML ドキュメント構造の処理について説明しているリソースがあるかどうか疑問に思っていました。たとえば、ニューヨークタイムズのページがある場合、どのページについても、メインの記事がどこにあるのか、ページの重要な要素がどこにあるのかを理解したいと考えています。一部の Web サイトでは、未加工の html ドキュメントがこのタイプの処理の兆候を示します。他のサイトの場合、一般的に提供されるのは書式設定タグ (フォントなど) だけです。私はOCR技術を見てきましたが、それらのほとんどは個々の要素を認識するために使用されており、これはOCRとは少し異なる問題です.

誰かがこのトピックに関する洞察を持っているなら、それは大歓迎です!

score 1 · Accepted Answer

あなたが探しているのは「スクリーンスクレイピング」または「データスクレイピング」と呼ばれるものです。ウィキペディアからのリンクは次のとおりです。Webスクレイピング

hpricotのような HTML パーサーの上に何かを構築できます。

html - HTMLドキュメント構造の処理

1 に答える 1

Related

Reference