HTML ドキュメント構造の処理について説明しているリソースがあるかどうか疑問に思っていました。たとえば、ニューヨーク タイムズのページがある場合、どのページについても、メインの記事がどこにあるのか、ページの重要な要素がどこにあるのかを理解したいと考えています。一部の Web サイトでは、未加工の html ドキュメントがこのタイプの処理の兆候を示します。他のサイトの場合、一般的に提供されるのは書式設定タグ (フォントなど) だけです。私はOCR技術を見てきましたが、それらのほとんどは個々の要素を認識するために使用されており、これはOCRとは少し異なる問題です.
誰かがこのトピックに関する洞察を持っているなら、それは大歓迎です!