私は、PHPでXPATHをスクレイピングして使用してDOMを解析し、ページから必要なものを取得することに精通しています。私が聞きたいのは、ページのヘッダー、フッター、サイドバーをプログラムで無視し、本体のコンテンツのみを抽出する方法に関するいくつかの提案です。
与えられた状況では、特定のターゲットがないため、#header や #footer などの特定の ID を単純に無視することはできません。これは、すべてのページの記述がわずかに異なるためです。
私はグーグルがこれを行うことを知っています、私はそれが可能でなければならないことを知っています、私はそれをどこから始めるべきか本当に知りません.
ありがとう!