問題タブ [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
959 参照

python - Pythonスクレイピングパッケージに関するガイダンス

私はまだPythonの初心者なので、この質問が正気でないことを願っています。

ウェブスクレイピングソリューションをグーグルで検索すればするほど、混乱します(多くの木を調査しているにもかかわらず、森を見ることができなくなります)。

私は、scrapy mechanize spynnerを含む(ただしこれらに限定されない)多くのプロジェクトに関するドキュメントを読んでいます。

でも、どのハンマーを使おうとしたらいいのかわからない。

クロールしようとしている特定のページがあります(www.schooldigger.com)aspを使用しており、エミュレートする必要のあるJavaスクリプトがいくつかあります。

この種の問題は簡単に対処できないことを私は知っているので、私はどんなガイダンスも望んでいます。

利用可能なオプション(および可能であれば異なるプロジェクト間の関係)に関する一般的な議論に加えて、いくつかの具体的な質問があります

  1. Scrapyを使用する場合、解析する「アイテム」を定義せずに、最初の数百ページ程度をダウンロードする方法はありますか?実際にはWebサイト全体をダウンロードしたくはありませんが、スクレーパーの開発中にどのページがダウンロードされているかを確認できるようにしたいと思います。

  2. mechanize、asp、javascript、私が投稿した質問を参照してくださいが、回答はありません、 https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. ユーザーがたどるリンクやグラフィカルに解析するアイテムを選択できるようなユーティリティ(ターボギアアプリケーションまたはブラウザプラグイン)を構築してみませんか?私が提案しているのは、解析APIの周りに座るある種のGUIです。そのようなプロジェクトを作成するための技術的な知識があるかどうかはわかりませんが、なぜそれが不可能なのかわかりません。実際、Pythonについて知っていることを考えると、それはかなり実現可能のようです。たぶん、この種のプロジェクトが直面するであろう問題についてのフィードバックはありますか?

  4. 最も重要なのは、すべてのWebクローラーが「サイト固有」に構築されているかどうかです。私は自分のコードの車輪の再発明をしているように思えます。(しかし、それはおそらくプログラミングがあまり得意ではないためです)

  5. フル機能のスクレーパーの例はありますか?ドキュメントにはたくさんの例がありますが(これは私が研究してきました)、パッケージの使用法を説明するためだけに、それらはすべて単純さに焦点を当てているようです。もっと詳細で複雑な例の恩恵を受けるかもしれません。

あなたの考えに感謝します。

0 投票する
2 に答える
1208 参照

python - Scrapy Django クロールされたリンクを制限する

スクレイピーのセットアップと実行ができたばかりで、うまく機能しますが、2つの(noob)質問があります。最初に、私はスクレイピーおよびスパイダーサイトにまったく慣れていないことを言わなければなりません。

  1. クロールするリンクの数を制限できますか? ページネーションを使用せず、ホームページに多くのリンク (私がクロールします) をリストするだけのサイトがあります。最初の 10 かそこらをクロールする必要があるだけなのに、これらのリンクをすべてクロールするのは気が引けます。

  2. 一度に複数のスパイダーを実行するにはどうすればよいですか? 現在、コマンドを使用していscrapy crawl example.comますが、example2.com と example3.com のスパイダーもあります。1 つのコマンドを使用してすべてのスパイダーを実行したいと考えています。これは可能ですか?

0 投票する
8 に答える
10137 参照

python - Scrapy内のdjangoモデルにアクセスする

Scrapyパイプライン内のdjangoモデルにアクセスして、スクレイピングされたデータをモデルに直接保存することはできますか?

私はこれを見ましが、私はそれを設定する方法を本当に理解していませんか?

0 投票する
6 に答える
25351 参照

python - 初心者がPythonでスクリーンスクレイピングを学ぶための最良の方法

これは答えるのが難しい質問の 1 つかもしれませんが、次のようになります。

私はセルフプログラマーとは考えていませんが、やりたいと思っています :-) 私は R を学びました。なぜなら、私は spss にうんざりしていて、友人が私にこの言語を紹介してくれたからです。プログラミングロジック。

今、私は Python を学びたいと思っています - 主に画面のスクレイピングとテキスト分析を行いますが、Pylons または Django を使用して Web アプリケーションを作成することも目的としています。

だから:Pythonでスクリーンスクレイプを学ぶにはどうすればいいですか?私は断片的なドキュメントを読み始めましたが、多くの「魔法」が起こっていると感じています.

一方: 車輪を再発明する理由はありません。Scrapy がスクリーン スクレイピングであり、Web ページに対する Django のようなものである場合、結局のところ、Scrapy に直接ジャンプする価値があるかもしれません。どう思いますか?

ああ - ところで: スクリーンスクレイピングの種類: 政治家などの言及のために新聞サイト (つまり、かなり複雑で大規模) をスクレイピングしたい.ある種のデータベースに - これはおまけの質問につながります: 誰もが SQL 以外の DB について話しているのです。mongoDB などの使用方法をすぐに学習する必要がありますか (強い一貫性は必要ないと思います)、それとも私がやりたいことに対してそれはばかげていますか?

ご意見ありがとうございます。これがプログラミングの質問と見なされるのが一般的である場合はお詫び申し上げます。

0 投票する
4 に答える
28611 参照

python - スクレイピー スパイダーのクロールを強制的に停止させる

特定の場合に条件が真の場合にクロールを停止する可能性はありますか (scrap_item_id == predefine_value など)。私の問題はScrapyに似ています-すでにスクレイピングされたURLを特定する方法ですが、最後にスクレイピングされたアイテムを発見した後、スクレイピースパイダーにクロールを停止させたい.

0 投票する
3 に答える
1548 参照

python - Scrapy 初心者向けの質問 - チュートリアル ファイルが機能しません

私は Python と Scrapy の完全な初心者なので、チュートリアルを再現することから始めました。チュートリアルに従って、www.dmoz.org Web サイトをスクレイピングしようとしています。

以下に示すように dmoz_spider.py を構成します

そして、私がウェブサイト経由で取得することになっているものは、何か違うものです.
私が何を台無しにしているのか分かりますか?

0 投票する
1 に答える
3086 参照

xpath - 大文字と小文字を区別しない値をXPathと照合する方法

大文字と小文字を区別せずに、name属性を持つメタタグを「keyword」という単語を含む値と一致させようとしているXPathがあります。基本的に、私は一致させようとしています:

XPathを使用

Scrapyを使用していて、セレクターが組み込まれていますが、このXPathを試してみると、「Invalid XPath:...」というエラーが表示されます。私は何を間違っているのですか、そして私がやりたいことをする正しい方法は何ですか?

0 投票する
2 に答える
3225 参照

django - Djangoを使った検索エンジン構築の提案

Webクロールは初めてです。クローラーが Rapidshare リンクが見つかった URL を含む Rapidshare リンクを保存する検索エンジンを構築します...

つまり、次のような Web サイトを構築します。filestube.com

いくつか検索した結果、Scrapyが Django で動作することがわかりました。Djangoとのnutch統合について見つけようとしましたが、何も見つかりませんでした

この種のウェブサイトを構築するための提案をいただければ幸いです...特にクローラー

0 投票する
2 に答える
2521 参照

web-scraping - python-scrapy:スパイダー内で(リンクをたどらないで)URLをフェッチする方法は?

HtmlXPathSelectorを介してページから何かを抽出するためにURLをフェッチするものをスパイダー内に含めるにはどうすればよいですか?しかし、URLはコード内の文字列として提供したいものであり、たどるリンクではありません。

私はこのようなことを試みました:

ただし、現時点では、次の例外がスローされます。

0 投票する
9 に答える
67399 参照

python - Scrapyとプロキシ

Python WebスクレイピングフレームワークScrapyでプロキシサポートをどのように利用しますか?