私はWebスクレイプに不慣れであり、仕事のためにすばやく学ぶ必要があります。取得する必要のあるコンテンツがメインページの各レコードに一意にネストされ(300回以上)、子ページの一部のフィールドがタグに含まれておらず、少し混乱しているため、クライアントのWebページをスクレイピングするのに問題があります。次の情報を取得するための最良のロジックは何でしょうか。(また、無料で調べる価値のある新しいスクレイプツールを誰かが知っているなら、それは素晴らしいことです。親ページのすべてのレコードを取得できます。各レコードをホップしてアクセスする方法がわかりません。これは子ページ情報であり、親ページの次の行に移動する前に取得します。
1 に答える
1
foreach top level pages {
html = fetch page
data = process html
while (there are more descendant pages) {
html = fetch next page using data
data = process html
}
save this data chain
}
ただし、上記のロジックに苦労している場合は、コードをスキップして、既存のツールの1つを学ぶことに時間を集中することをお勧めします。あなたは時間を節約することはほぼ確実です。特に、頻繁にこする場合。
于 2011-12-12T17:17:58.753 に答える