問題タブ [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - スクレイピーの特定のエラーログファイルへのロギング
これを行うことで、scrapy のログを実行しています。
次に、次のようにスパイダーを実行します。
これにより、すべての log.INFO データと log.ERROR が に保存されspider.log
ます。
エラーが発生した場合は、それらの詳細を という別のログ ファイルにも保存したいと思いますspider_errors.log
。spider.log
ファイル全体 (巨大になる可能性があります)をスキャンするよりも、発生したエラーを簡単に検索できます。
これを行う方法はありますか?
編集:
PythonLoggingObserver を試す:
しかし、私は得るERROR: No handlers could be found for logger "twisted"
python - ウェブスクレーパーを高速化
を使用して、非常に単純な Web スクレーパーで 23770 の Web ページをスクレイピングしていscrapy
ます。私はスクレイピー、さらにはpythonも初めてですが、仕事をするスパイダーを書くことができました。ただし、非常に遅いです (23770 ページをクロールするのに約 28 時間かかります)。
scrapy
Web ページとメーリング リストとを調べましたがstackoverflow
、初心者が理解できる高速クローラーを作成するための一般的な推奨事項が見つからないようです。多分私の問題はスパイダー自体ではなく、実行方法です。すべての提案を歓迎します!
必要に応じて、コードを以下にリストしました。
ありがとう!
python - スパイダーごとに個別のスクレイピーパイプラインを使用する方法はありますか?
別のドメインで Web ページを取得したいということは、「scrapy crawl myspider」コマンドで別のスパイダーを使用する必要があることを意味します。ただし、Web ページのコンテンツが異なるため、データをデータベースに入れるには別のパイプライン ロジックを使用する必要があります。しかし、スパイダーごとに、settings.py で定義されたすべてのパイプラインを通過する必要があります。スパイダーごとに個別のパイプラインを使用する他のエレガントな方法はありますか?
python - スクレイピー スパイダーの start_urls で投稿データを送信する方法
投稿データのみをサポートする Web サイトをクロールしたい。すべてのリクエストで、投稿データのクエリ パラメータを送信したいと考えています。これを達成する方法は?
python - Scrapy でリンクをたどることができない
私は今 Scrapy を使い始めており、スポーツ ページ (サッカー選手の名前とチーム) から必要なコンテンツを取得する方法を手に入れましたが、他のチームを検索するリンクをたどる必要があります。すべてのチーム ページにリンクがあります。プレーヤーのページへのリンクの構造は次のとおりです。
チームページ: http://esporte.uol.com.br/futebol/clubes/vitoria/ 選手ページ: http://esporte.uol.com.br/futebol/clubes/vitoria/jogadores/
私はいくつかの Scrapy チュートリアルを読みましたが、リンクをたどる必要があり、何も解析しないチーム ページと、プレーヤーをフォローせずに解析しなければならないチーム ページを考えています。私はこの考えに正しく、構文に間違っています.followの私の考えが間違っている場合は、どんな助けも大歓迎です.
ここに私のコードがあります:
python - 外部スクリプトを介してスクレイピーでスパイダーの戻りデータを取得するにはどうすればよいですか?
このようなスクリプトを実行したときに、スパイダーのパース関数の戻りデータを表示するにはどうすればよいですか?
スパイダーで印刷メッセージを表示するためにログを無効にしますが、ログを有効にすると、戻りデータも表示されません。
Spider parse 関数のコードは単純な文字列を返します。
このデータを取得するにはどうすればよいですか? 「reactor.run」の結果を印刷しようとしましたが、常に「なし」です
python - スクレイピーはすべてのリンクをクロールしませんでした
http://community.sellfree.co.kr/からデータを抽出したい。Scrapy は機能していますがstart_urls
、.
スパイダーにサイト全体をクロールしてもらいたいです。
以下は私のコードです:
ページには 2 種類のリンクがあります。1つはonclick="location='../bbs/board.php?bo_table=maket_5_3'
あり、もう1つは<a href="../bbs/board.php?bo_table=maket_5_1&sca=프로그램/솔루션"><span class="list2">solution</span></a>
クローラーに両方の種類のリンクをたどらせるにはどうすればよいですか?