問題タブ [pyspider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
8834 参照

python - Scrapy を pyspider に置き換えることはできますか?

私はScrapyWebスクレイピングフレームワークをかなり広範囲に使用してきましたが、最近、 と呼ばれる別のフレームワーク/システムがあることを発見しました。pyspiderこれは、githubページによると、新しく、活発に開発され、人気があります。

pyspiderのホームページには、すぐに使用できるいくつかの機能がリストされています。

  • スクリプト エディター、タスク モニター、プロジェクト マネージャー、結果ビューアーを備えた強力な WebUI

  • Javascriptページ対応!

  • タスクの優先度、再試行、定期的および再クロール (更新時間など) の年齢またはインデックス ページのマークによる

  • 分散アーキテクチャ

これらはScrapyそれ自体では提供されないものですが、portia(Web UI の場合)、scrapyjs(js ページの場合)、scrapyd(API を介したデプロイと配布) の助けを借りて可能になります。

pyspiderそれだけでこれらすべてのツールを置き換えることができるというのは本当ですか? 言い換えれば、pyspiderScrapy の直接的な代替手段はありますか? そうでない場合、それはどのユースケースをカバーしていますか?

「広すぎる」または「意見に基づく」一線を越えていないことを願っています。

0 投票する
1 に答える
381 参照

phantomjs - pyspider と phantomjs で画像をスクレイピングできない

ここで、このWeb ページの項目 (iphone) のすべての画像をスクレイピングしたいと考えています。まず、画像のすべてのリンクを抽出し、リクエストを 1 つずつ src に送信して、それらをフォルダー '/phone/' にダウンロードします。これが私のコードです:

それは非常に直感的でシンプルです。しかし、コードを実行しても何も起こらず、ターミナルに次のログ メッセージが表示されました。

私はこの問題にほとんど夢中です。何が問題なのか、どうすれば修正できるのか教えてください。前もって感謝します!

0 投票する
1 に答える
540 参照

python - Python pyspider スクリプトの出力を csv または json に保存したい

ここで私が作った私のコード:

上記のコードでは、リンクからのスクラップデータがありますが、json または csv 形式で出力を取得できません

ここに画像の説明を入力

0 投票する
1 に答える
453 参照

python-3.x - pyspider : 「wsgidav」という名前のモジュールがありません

Windows 10 で python 3.5.2 を使用しています。pyspider をインストールして実行するpyspider allと、次のようなエラーが発生します。 ここに画像の説明を入力

私は何をすべきか?

0 投票する
1 に答える
426 参照

python - Python 3.5/win 64 の Pyspider のインストール "lxml のホイールの構築に失敗しました

私はpyspiderをインストールしようとしていますが、常に得ました

「lxml のホイールの構築に失敗しました...」、lxml が正しくインストールされていないようで、http://www.lfd.uciから lxml-3.6.1-cp35-cp35m-win_amd64.whl をダウンロードしようとしました.edu/~gohlke/pythonlibs/#psutil . ただし、ダウンロード リンクが無効になっているようです。これを解決する方法、または whl ファイルを共有する方法についてアドバイスをいただけますか? どうもありがとう!

0 投票する
1 に答える
1062 参照

python - Scrapy を使用して 20 万のドメインからテキストを抽出する

私の問題は次のとおりです。たとえば、www.example.com などのドメインから貴重なテキストをすべて抽出したいのです。だから私はこのウェブサイトに行き、最大深さ2のすべてのリンクにアクセスし、それをcsvファイルに書きます。

1 つのプロセスを使用して複数のクローラーを生成するこの問題を解決するモジュールを Scrapy で作成しましたが、非効率的です。1 時間あたり最大 1,000 個のドメイン/最大 5,000 個の Web サイトをクロールでき、私のボトルネックが CPU であることがわかる限り (なぜならGILの?)。しばらく PC を離れた後、ネットワーク接続が切断されていることに気付きました。

複数のプロセスを使用したいとき、ツイストからエラーが発生しました:マルチプロセッシング オブ スクレイピー スパイダーの並列プロセス

だから私は何をすべきかいくつかのアイデアを持っています

  • 反撃してねじれを学び、マルチプロセッシングを実装し、Redis で分散キューを実装しようとしますが、scrapy がこの種の仕事に適したツールであるとは思いません。
  • pyspider を使用します - 必要なすべての機能を備えています (使用したことはありません)。
  • Nutch を使用します。これは非常に複雑です (私は使用したことがありません)。
  • 独自の分散クローラーを構築しようとしましたが、4 つの Web サイトをクロールした後、SSL、重複、タイムアウトの 4 つのエッジ ケースが見つかりました。ただし、次のような変更を加えるのは簡単です。

どのような解決策をお勧めしますか?

Edit1: コードの共有

そして呼び出し:

クモは特に興味深いものではありません。