php - PHPScrapのネストされたページ

Question

私はWebスクレイプに不慣れであり、仕事のためにすばやく学ぶ必要があります。取得する必要のあるコンテンツがメインページの各レコードに一意にネストされ（300回以上）、子ページの一部のフィールドがタグに含まれておらず、少し混乱しているため、クライアントのWebページをスクレイピングするのに問題があります。次の情報を取得するための最良のロジックは何でしょうか。（また、無料で調べる価値のある新しいスクレイプツールを誰かが知っているなら、それは素晴らしいことです。親ページのすべてのレコードを取得できます。各レコードをホップしてアクセスする方法がわかりません。これは子ページ情報であり、親ページの次の行に移動する前に取得します。

score 1 · Accepted Answer

foreach top level pages {
    html = fetch page
    data = process html
    while (there are more descendant pages) {
        html = fetch next page using data
        data = process html
    }
    save this data chain
}

ただし、上記のロジックに苦労している場合は、コードをスキップして、既存のツールの1つを学ぶことに時間を集中することをお勧めします。あなたは時間を節約することはほぼ確実です。特に、頻繁にこする場合。

php - PHPScrapのネストされたページ

1 に答える 1

Related

Reference