問題タブ [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
841 参照

python - Scrapy Web スクレイパーはリンクをクロールできません

私はScrapyが初めてです。ここで私のスパイダーがtwistedwebをクロールします。

を実行する scrapy-ctl.py crawl twistedweb3と、フェッチのみが行われました。

index.htmlコンテンツを取得して、 を使用しSgmlLinkExtractorてみました。期待どおりにリンクを抽出しますが、これらのリンクをたどることはできません。

どこが間違っているのか教えてもらえますか?

css、javascriptファイルを取得したいとします。どうすればこれを達成できますか? 完全なウェブサイトを取得するという意味ですか?

0 投票する
2 に答える
5696 参照

python - スクレイピーの使い方

Scrapy に基づいてクローラーを開始する方法を知りたいです。apt-get install でツールをインストールし、例を実行しようとしました:

Spiders/google_directory.py からコードをハッキングしましたが、挿入したプリントが表示されないため、実行されていないようです。彼らのドキュメントを読みましたが、これに関連するものは何も見つかりませんでした。あなたはなにか考えはありますか?

また、ウェブサイトをクロールするために他のツールを使用する必要があると思われる場合は、お知らせください。私は Python ツールの経験がなく、Python は必須です。

ありがとう!

0 投票する
1 に答える
1070 参照

python - cxfreezeを使用してscrapyプロジェクトをパッケージ化するにはどうすればよいですか?

Windows を使用している顧客のために、それらの依存関係を手動でインストールすることなく、すべてまとめてパッケージ化したいスクレイピー プロジェクトがあります。cxfreeze に出くわしましたが、スクレイピーなプロジェクトでどのように機能するかはよくわかりません。

なんらかのインターフェースを作成して、「from Scrapy.cmdline import execute」でスクレイピー クローラーを実行しようと考えていますが、よくわかりません。

助けてくれてありがとう。

0 投票する
6 に答える
18503 参照

virtualenv - virtualenvにlibxml2をインストールするにはどうすればよいですか?

オプション付きのvirtualenvがあり--no-site-packagesます。私はそれにscrapyを使用しています。Scrapyは。によってlibxml2import libxml2を使用します。またはを使用してvirtualenvにlibxml2をインストールするにはどうすればよいですpipeasy_install

0 投票する
5 に答える
9523 参照

python - Scrapy - すでにスクレイピングされた URL を特定する方法

私はスクレイピーを使用して、ニュース Web サイトを毎日クロールしています。スクレイピーがすでにスクレイピングされた URL をスクレイピングしないように制限するにはどうすればよいですか。また、 に関する明確なドキュメントや例はありますかSgmlLinkExtractor

0 投票する
1 に答える
246 参照

python - Web サービスに Python を使用する方法

私はPythonを初めて使用し、Webサイトをクロールしてデータを抽出するために使用されるスクレイピーフレームワークをいじっただけです。

私の質問は、オンラインのどこかでホストされている python スクリプトにパラメーターを渡す方法です。

たとえば、次のリクエストを行いますmysite.net/rest/index.py

*.php?id=... のような php に似たいくつかのパラメーターを渡したいと思います。

0 投票する
4 に答える
8130 参照

python - ラムダコールバックを介して Scrapy スパイダー内で引数を渡す

こんにちは、

私はこの短いスパイダーコードを持っています:

そして、私は次のような出力を期待します:

ただし、実際の出力は次のとおりです。

だから、私が渡す議論callback=lambda r:self.parse2(r, i)はどういうわけか間違っています。

コードの何が問題になっていますか?

0 投票する
1 に答える
1388 参照

python - Scrapyを使用してこのFormRequestを送信した後、Webサーバーは「500InternalServerError」を返します

httpFox(Firefoxアドオン)の内容に従って、次のFormRequestを作成します。ただし、Webサーバーは常に「500内部サーバーエラー」を返します。

誰かがこれについて私を助けてもらえますか?

元のURLは次のとおりです。http: //www.intel.com/jobs/jobsearch/index_ne.htm? Location = 20000008

これが私のクモの骨格です:

0 投票する
2 に答える
7517 参照

python - Scrapyパイプラインを機能させることができません

Scrapyフレームワークを使用して作成したスパイダーがあります。パイプラインを機能させるのに問題があります。私のpipelines.pyには次のコードがあります。

私のCrawlSpiderサブクラスには、このクラスのパイプラインをアクティブ化するためのこの行があります。

しかし、私がそれを使用して実行すると

私は言う行を取得します

パイプラインなし(これは、ロギングがパイプラインを出力する場所であると思います)。

ドキュメントを調べてみましたが、何かを見逃していないかどうかを確認するためのプロジェクト全体の完全な例はないようです。

次に何を試すべきかについての提案はありますか?またはどこでさらなるドキュメントを探すべきですか?

0 投票する
2 に答える
7156 参照

python - Scrapy パイプライン Spider_opened および Spider_closed が呼び出されていない

スクレイピーパイプラインで問題が発生しています。私の情報はサイトからスクレイピングされており、process_item メソッドは正しく呼び出されています。ただし、 Spider_opened および Spider_closed メソッドは呼び出されていません。

ログには__init__とロギング メッセージの両方が表示されますが、とロギング メッセージは表示されません。process_itemspider_openspider_close

Spider_opened メソッドと Spider_closed メソッドを使用してデータベースへの接続を開いたり閉じたりする必要がありますが、それらのログには何も表示されません。

誰かが非常に役立つことを示唆している場合。