0

HTML ドキュメント構造の処理について説明しているリソースがあるかどうか疑問に思っていました。たとえば、ニューヨーク タイムズのページがある場合、どのページについても、メインの記事がどこにあるのか、ページの重要な要素がどこにあるのかを理解したいと考えています。一部の Web サイトでは、未加工の html ドキュメントがこのタイプの処理の兆候を示します。他のサイトの場合、一般的に提供されるのは書式設定タグ (フォントなど) だけです。私はOCR技術を見てきましたが、それらのほとんどは個々の要素を認識するために使用されており、これはOCRとは少し異なる問題です.

誰かがこのトピックに関する洞察を持っているなら、それは大歓迎です!

4

1 に答える 1

1

あなたが探しているのは「スクリーン スクレイピング」または「データ スクレイピング」と呼ばれるものです。ウィキペディアからのリンクは次のとおりです。Webスクレイピング

hpricotのような HTML パーサーの上に何かを構築できます。

于 2009-07-06T17:55:36.717 に答える