0

私はソフトウェア開発に不慣れで、これについてどうすればよいかわかりません。Web サイトのすべてのページにアクセスして、各ページから特定のデータを取得したいと考えています。私の問題は、事前に個々の URL を知らずに既存のすべてのページを反復処理する方法がわからないことです。たとえば、URL が で始まるすべてのページにアクセスしたい

「http://stackoverflow.com/questions/」

リストをコンパイルしてからそれを繰り返す方法はありますか、またはURLの巨大なリストを作成せずにこれを行うことは可能ですか?

4

3 に答える 3

4

Scrapyを試してください。

すべてのクロールを処理し、データの抽出ではなく、データの処理に集中できます。チュートリアルにすでにあるコードをコピーして貼り付ける代わりに、それを読むのはあなたに任せます。

于 2012-06-14T06:18:30.487 に答える
0

Web サイトから特定のデータを取得するには、 scrapyなどの Web スクレイピング ツールを使用できます。

必要なデータが JavaScript によって生成される場合、 Selenium WebDriverなどのブラウザーのようなツールが必要になる場合があり、手動でリンクのクローリングを実装します。

于 2012-06-14T06:21:15.887 に答える
-2

たとえば、次のように単純な for ループを作成できます。

def webIterate():
    base_link = "http://stackoverflow.com/questions/"
    for i in xrange(24):
        print "http://stackoverflow.com/questions/%d" % (i)

出力は次のようになります。

http://stackoverflow.com/questions/0
http://stackoverflow.com/questions/2
http://stackoverflow.com/questions/3
...
http://stackoverflow.com/questions/23

これはほんの一例です。いくつかの質問を渡して、好きなものを作成できます

于 2012-06-14T06:17:04.497 に答える