問題タブ [pyspider]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

35 問題

0 投票する

2 に答える

8834 参照

python - Scrapy を pyspider に置き換えることはできますか?

私はScrapyWebスクレイピングフレームワークをかなり広範囲に使用してきましたが、最近、と呼ばれる別のフレームワーク/システムがあることを発見しました。pyspiderこれは、githubページによると、新しく、活発に開発され、人気があります。

pyspiderのホームページには、すぐに使用できるいくつかの機能がリストされています。

スクリプトエディター、タスクモニター、プロジェクトマネージャー、結果ビューアーを備えた強力な WebUI

Javascriptページ対応！

タスクの優先度、再試行、定期的および再クロール (更新時間など) の年齢またはインデックスページのマークによる

分散アーキテクチャ

これらはScrapyそれ自体では提供されないものですが、portia(Web UI の場合)、scrapyjs(js ページの場合)、scrapyd(API を介したデプロイと配布) の助けを借りて可能になります。

pyspiderそれだけでこれらすべてのツールを置き換えることができるというのは本当ですか? 言い換えれば、pyspiderScrapy の直接的な代替手段はありますか? そうでない場合、それはどのユースケースをカバーしていますか?

^{「広すぎる」または「意見に基づく」一線を越えていないことを願っています。}

2014-12-02T06:33:53.377

0 投票する

1 に答える

381 参照

phantomjs - pyspider と phantomjs で画像をスクレイピングできない

ここで、このWeb ページの項目 (iphone) のすべての画像をスクレイピングしたいと考えています。まず、画像のすべてのリンクを抽出し、リクエストを 1 つずつ src に送信して、それらをフォルダー '/phone/' にダウンロードします。これが私のコードです：

それは非常に直感的でシンプルです。しかし、コードを実行しても何も起こらず、ターミナルに次のログメッセージが表示されました。

私はこの問題にほとんど夢中です。何が問題なのか、どうすれば修正できるのか教えてください。前もって感謝します！

phantomjs web-crawler pyquery pyspider

2016-06-02T11:19:34.367

0 投票する

1 に答える

540 参照

python - Python pyspider スクリプトの出力を csv または json に保存したい

ここで私が作った私のコード:

上記のコードでは、リンクからのスクラップデータがありますが、json または csv 形式で出力を取得できません

python json csv pyspider

2016-06-28T07:02:43.437

0 投票する

1 に答える

453 参照

python-3.x - pyspider : 「wsgidav」という名前のモジュールがありません

Windows 10 で python 3.5.2 を使用しています。pyspider をインストールして実行するpyspider allと、次のようなエラーが発生します。

私は何をすべきか？

python-3.x pyspider wsgidav

2016-06-29T10:11:19.330

0 投票する

1 に答える

426 参照

python - Python 3.5/win 64 の Pyspider のインストール "lxml のホイールの構築に失敗しました

私はpyspiderをインストールしようとしていますが、常に得ました

「lxml のホイールの構築に失敗しました...」、lxml が正しくインストールされていないようで、http://www.lfd.uciから lxml-3.6.1-cp35-cp35m-win_amd64.whl をダウンロードしようとしました.edu/~gohlke/pythonlibs/#psutil . ただし、ダウンロードリンクが無効になっているようです。これを解決する方法、または whl ファイルを共有する方法についてアドバイスをいただけますか? どうもありがとう！

python lxml python-wheel pyspider

2016-08-05T07:32:33.277

0 投票する

1 に答える

1062 参照

python - Scrapy を使用して 20 万のドメインからテキストを抽出する

私の問題は次のとおりです。たとえば、www.example.com などのドメインから貴重なテキストをすべて抽出したいのです。だから私はこのウェブサイトに行き、最大深さ2のすべてのリンクにアクセスし、それをcsvファイルに書きます。

1 つのプロセスを使用して複数のクローラーを生成するこの問題を解決するモジュールを Scrapy で作成しましたが、非効率的です。1 時間あたり最大 1,000 個のドメイン/最大 5,000 個の Web サイトをクロールでき、私のボトルネックが CPU であることがわかる限り (なぜならGILの?)。しばらく PC を離れた後、ネットワーク接続が切断されていることに気付きました。

複数のプロセスを使用したいとき、ツイストからエラーが発生しました:マルチプロセッシングオブスクレイピースパイダーの並列プロセス

だから私は何をすべきかいくつかのアイデアを持っています

反撃してねじれを学び、マルチプロセッシングを実装し、Redis で分散キューを実装しようとしますが、scrapy がこの種の仕事に適したツールであるとは思いません。
pyspider を使用します - 必要なすべての機能を備えています (使用したことはありません)。
Nutch を使用します。これは非常に複雑です (私は使用したことがありません)。
独自の分散クローラーを構築しようとしましたが、4 つの Web サイトをクロールした後、SSL、重複、タイムアウトの 4 つのエッジケースが見つかりました。ただし、次のような変更を加えるのは簡単です。

どのような解決策をお勧めしますか?

Edit1: コードの共有

そして呼び出し：

クモは特に興味深いものではありません。

python scrapy web-crawler nutch pyspider

2016-12-21T12:20:25.277

1 2 3 4 5 6 7 8 9 10

問題タブ [pyspider]

python - Scrapy を pyspider に置き換えることはできますか?

phantomjs - pyspider と phantomjs で画像をスクレイピングできない

python - Python pyspider スクリプトの出力を csv または json に保存したい

python-3.x - pyspider : 「wsgidav」という名前のモジュールがありません

python - Python 3.5/win 64 の Pyspider のインストール "lxml のホイールの構築に失敗しました

python - Scrapy を使用して 20 万のドメインからテキストを抽出する

Reference