4

何年もしぶしぶスクレーパーを正規表現やBeautifulSoupなどのミッシュマッシュとしてコーディングした後、Scrapyを見つけました。これは、今年のクリスマスプレゼントとして数えられます。使用するのは自然であり、実質的にすべてをエレガントで再利用できるように構築されているようです。

しかし、私はどのように取り組むべきかわからない状況にあります。私のクモはリストページAを這い回ってこすり、そこから一連のアイテムを生成します。ただし、アイテムごとに、追加情報を取得するために、個別の補完リンク(Scrapyがたどることができるページ上のリンクではなく、スクレイプされた情報の一部から構築されたもの)を取得する必要があります。

私の質問は2つの部分に分かれています:クロールプロセスの外でURLをフェッチするためのプロトコルは何ですか?複数のソースからエレガントな方法でアイテムを作成するにはどうすればよいですか?

これは、StackOverflowに関する以前の質問で部分的に質問(および回答)されています。しかし、私はこの使用例でScrapyの哲学がどうあるべきかについてもっと興味があります---確かに予期しない可能性ではありませんか?これはパイプラインが使用される運命にあるものの1つであるかどうか疑問に思います(一次情報から推定される二次ソースからの情報の追加はインスタンス「後処理」です)が、それを行うための最良の方法は何ですか? Scrapyの効率的な非同期組織を完全に台無しにしていないのですか?

4

1 に答える 1

2

クロール プロセス以外で URL を取得するためのプロトコルは何ですか?

URL を指定して を作成する場合Request、ダウンロード元の URL をどこから取得したかは問題ではありません。ページから抽出するか、別の方法で構築できます。

複数のソースからエレガントな方法でアイテムを作成するにはどうすればよいですか?

使用するRequest.meta

于 2012-08-05T14:33:00.130 に答える