サイトのメイン コンテンツ DIV を検出するための戦略を考え出そうとしています。メイン コンテンツ div の意味: サイトのヘッダー、本文、およびフッターを含む div。
それを検出するのは非常に困難で遅いプロセスです。
たとえば、http://www.goo.ne.jp/では、 id="bodyWrapper" または "minWidthInbox" を検出します。これらの div にはサイトのメイン コンテンツが含まれているためです。
また、そのために多くのアルゴリズムを試しました。しかし、サイトの構造が奇妙で一貫性がないため、すべてのサイトを単一のアルゴリズムで実行することはできません。
テーブル レイアウトは特に検出が困難です。:-(
この問題にどのようにアプローチすればよいですか?