2

そのため、かなり長い間 import.io デスクトップ アプリを使用して大量のデータを抽出してきました。しかし、常に私を悩ませていたのは、複数の URL を一括抽出しようとすると、常にそれらの約半分がスキップされることです。

これは URL の問題ではありません。同じように 15 個の URL を使用すると、たとえば 1 回目は 8、2 回目は 7、3 回目は 9 が返されます。一部のリンクは最初に抽出されますが、2 回目はスキップされます。

フィードしたすべての URL を処理する方法はあるのでしょうか?

4

1 に答える 1

1

データを抽出しているときに、この問題が数回発生しました。これは通常、一括抽出がサイトのサーバーから URL を要求する速度が原因です。

回避策は、Extractor のような Crawler を使用することです。作成/収集した URL を [開始場所]、[クロールする場所]、および [データを取得する場所] セクションに貼り付けることができます (クローラーの詳細設定ボタンをクリックする必要があります)。

必ず 0 depth Crawl をオンにしてください。(これにより、クローラーがエクストラクタに変わります。つまり、追加の URL は検出されません)

ページ間の一時停止を増やします。

これは、私が以前に作成したもののスクリーンショットです。 http://i.gyazo.com/92de3b7c7fbca2bc4830c27aefd7cba4.png

于 2015-07-07T00:01:48.513 に答える