問題タブ [scrapy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy Web スクレイパーはリンクをクロールできません
私はScrapyが初めてです。ここで私のスパイダーがtwistedwebをクロールします。
を実行する scrapy-ctl.py crawl twistedweb3
と、フェッチのみが行われました。
index.html
コンテンツを取得して、 を使用しSgmlLinkExtractor
てみました。期待どおりにリンクを抽出しますが、これらのリンクをたどることはできません。
どこが間違っているのか教えてもらえますか?
css、javascriptファイルを取得したいとします。どうすればこれを達成できますか? 完全なウェブサイトを取得するという意味ですか?
python - スクレイピーの使い方
Scrapy に基づいてクローラーを開始する方法を知りたいです。apt-get install でツールをインストールし、例を実行しようとしました:
Spiders/google_directory.py からコードをハッキングしましたが、挿入したプリントが表示されないため、実行されていないようです。彼らのドキュメントを読みましたが、これに関連するものは何も見つかりませんでした。あなたはなにか考えはありますか?
また、ウェブサイトをクロールするために他のツールを使用する必要があると思われる場合は、お知らせください。私は Python ツールの経験がなく、Python は必須です。
ありがとう!
python - cxfreezeを使用してscrapyプロジェクトをパッケージ化するにはどうすればよいですか?
Windows を使用している顧客のために、それらの依存関係を手動でインストールすることなく、すべてまとめてパッケージ化したいスクレイピー プロジェクトがあります。cxfreeze に出くわしましたが、スクレイピーなプロジェクトでどのように機能するかはよくわかりません。
なんらかのインターフェースを作成して、「from Scrapy.cmdline import execute」でスクレイピー クローラーを実行しようと考えていますが、よくわかりません。
助けてくれてありがとう。
virtualenv - virtualenvにlibxml2をインストールするにはどうすればよいですか?
オプション付きのvirtualenvがあり--no-site-packages
ます。私はそれにscrapyを使用しています。Scrapyは。によってlibxml2import libxml2
を使用します。またはを使用してvirtualenvにlibxml2をインストールするにはどうすればよいですpip
かeasy_install
?
python - Scrapy - すでにスクレイピングされた URL を特定する方法
私はスクレイピーを使用して、ニュース Web サイトを毎日クロールしています。スクレイピーがすでにスクレイピングされた URL をスクレイピングしないように制限するにはどうすればよいですか。また、 に関する明確なドキュメントや例はありますかSgmlLinkExtractor
。
python - Web サービスに Python を使用する方法
私はPythonを初めて使用し、Webサイトをクロールしてデータを抽出するために使用されるスクレイピーフレームワークをいじっただけです。
私の質問は、オンラインのどこかでホストされている python スクリプトにパラメーターを渡す方法です。
たとえば、次のリクエストを行いますmysite.net/rest/index.py
*.php?id=... のような php に似たいくつかのパラメーターを渡したいと思います。
python - ラムダコールバックを介して Scrapy スパイダー内で引数を渡す
こんにちは、
私はこの短いスパイダーコードを持っています:
そして、私は次のような出力を期待します:
ただし、実際の出力は次のとおりです。
だから、私が渡す議論callback=lambda r:self.parse2(r, i)
はどういうわけか間違っています。
コードの何が問題になっていますか?
python - Scrapyを使用してこのFormRequestを送信した後、Webサーバーは「500InternalServerError」を返します
httpFox(Firefoxアドオン)の内容に従って、次のFormRequestを作成します。ただし、Webサーバーは常に「500内部サーバーエラー」を返します。
誰かがこれについて私を助けてもらえますか?
元のURLは次のとおりです。http: //www.intel.com/jobs/jobsearch/index_ne.htm? Location = 20000008
これが私のクモの骨格です:
python - Scrapyパイプラインを機能させることができません
Scrapyフレームワークを使用して作成したスパイダーがあります。パイプラインを機能させるのに問題があります。私のpipelines.pyには次のコードがあります。
私のCrawlSpiderサブクラスには、このクラスのパイプラインをアクティブ化するためのこの行があります。
しかし、私がそれを使用して実行すると
私は言う行を取得します
パイプラインなし(これは、ロギングがパイプラインを出力する場所であると思います)。
ドキュメントを調べてみましたが、何かを見逃していないかどうかを確認するためのプロジェクト全体の完全な例はないようです。
次に何を試すべきかについての提案はありますか?またはどこでさらなるドキュメントを探すべきですか?
python - Scrapy パイプライン Spider_opened および Spider_closed が呼び出されていない
スクレイピーパイプラインで問題が発生しています。私の情報はサイトからスクレイピングされており、process_item メソッドは正しく呼び出されています。ただし、 Spider_opened および Spider_closed メソッドは呼び出されていません。
ログには__init__
とロギング メッセージの両方が表示されますが、とロギング メッセージは表示されません。process_item
spider_open
spider_close
Spider_opened メソッドと Spider_closed メソッドを使用してデータベースへの接続を開いたり閉じたりする必要がありますが、それらのログには何も表示されません。
誰かが非常に役立つことを示唆している場合。