問題タブ [scrapy-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xpath - Scrapy ボットとシェルは、同じ xpath クエリで異なる結果を返します。なんで?
スクレイピー ボットとスクレイピー シェルで同じ xpath クエリを実行すると、異なる結果が得られます。
注: 私はスクレイピーを学ぼうとしているだけなので、チュートリアル コードの一部を変更しています。私と一緒にゆっくり行ってください。
クエリ:
ボット:
DmozItem:
私が欲しいのは、州の公立図書館のページへのリンクだけです (Web ページを参照)。
これがシェルが示すものです(これはまさに私が欲しいものです):
スパイダーが同じクエリを実行すると、必要のない追加の href 選択が取得されます。
いくつかの例:
私が知る限り、ボットによって返される要素/リンクの多くはxpath セレクターに適合しません。それはどのように起こっていますか?誰かが私が間違っていることを説明してもらえますか?
どうもありがとう!
python-2.7 - スクレイピーのxpathセレクタの問題
デバッグスパイダーを使用して分離したい属性を見つけることができましたが、スパイダーに正しく組み込まれているかどうかはわかりません。スパイダーの実行時に明示的なエラーメッセージが表示されないため、セレクターを間違って入力しただけだと思います。
私がクロールしている Web サイトは " http://www.smiling-moose.com/events/index.php " です。デバッグ スパイダーに入力するパス コマンドは "response.xpath('//div[@class=" show_sec_button"]/text()')" は、私が探している正確な応答を引き出します。
これが私のスパイダーです:
ここに私のItems.pyがあります:
スパイダーで変更する必要があるものはありますか? 必要に応じて、コマンド プロンプト エラーを投稿できます。
ありがとうございました
html - XPath で画像の src リンクを取得できません
Scrapy を使用して、このサイトの製品画像の src リンクをクロールしています。
http://eshop.tesco.com.my/en-GB/Promotion/List?SortBy=Default
何らかの理由で、Xpath は製品イメージの src リンクを取得しません。このXpathを使用してScrapy Shellでテストすることにより、サイトからすべての画像srcリンクをクロールしようとしました:
返された結果は、すべての製品のタグにsrc
リンクがないことを示しています。img
Chrome Inspector を使用して再度確認したところ、各製品の src リンクがあります。返された結果に src リンクがないのはなぜですか?
助けてください。
ありがとう。
python - AttributeError:スクレイピーシェルを使用している場合、「モジュール」オブジェクトには属性「データベース」がありません
プロジェクトのルートで Scrapy シェルを実行しようとしていますが、ある種の DATABASE 設定に関して不明なエラーが発生し続けます。これが SQLAlchemy の問題なのか、それともスキーマ定義の問題なのかわかりません。
scrapy shell http://some_website.com
プロジェクトのパス以外のディレクトリから実行しても問題ありません。
シェルを起動しようとしています:
そしてここにトレースバックがあります:
アドバイスをいただければ幸いです。
web-scraping - Scrapy シェルと Scrapy スプラッシュ
scrapy-splash
ミドルウェアを使用しSplash
て、ドッカー コンテナー内で実行されている JavaScript エンジンを介してスクレイピングされた HTML ソースを渡してきました。
スパイダーでスプラッシュを使用する場合は、いくつかの必要なプロジェクト設定を構成し、Request
特定のmeta
引数を指定します。
これは文書化されているとおりに機能します。しかし、Scrapy Shellscrapy-splash
内でどのように使用できますか?
web-scraping - スクレイピーシェルからスパイダーを一覧表示し、個々のスパイダーを実行します
ターミナルの「scrapy project folder」内からscrapy shellにアクセスしたいです。そして、私のプロジェクトで利用可能なすべてのスパイダーを一覧表示したいと考えています。また、個々のスパイダーを実行して、応答で遊ぶのも好きです。
スクレイピーシェルに入ると、次のオブジェクトを取得します:
私の最善の推測は、「クローラー」オブジェクトのメソッドを使用して、利用可能なスパイダーをリストすることです。しかし、私は運がありません。また、スパイダーをリストしたら実行する方法を教えてください。
python - Ubuntu での Scrapy インストール: pkg_resources.DistributionNotFound: attrs
ここのチュートリアルに従ってスクレイピーをインストールしました。インストールは成功しましたが、プロジェクトをセットアップしようとすると、
このエラーを解決する方法についてのアイデア..? Google経由で役立つポインターが見つかりませんでした。
scrapy - スクレイピー シェル リクエストのヘッダーを設定する
scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com'
を変更できることは知っていますがUSER_AGENT
、リクエストヘッダーを追加するにはどうすればよいですか?
python-2.7 - Scrapy で Xpath を使用してテキストを抽出するにはどうすればよいですか?
わかりました、私はすべてを試したようですが、ここで何が起こっているのか理解できません. 私がスクレイピングしようとしているサイトへの直接リンクはhttp://www.ammofast.com/collections/pistol/products/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-です場合
そして、タイトルと価格を抽出したいと思います。私の最善の試みは、空の [] を返すことになります
私は一握りの異なるバリエーションを試しましたが、すべて役に立ちませんでした. XPath の構造をまだ完全には理解していないと思いますが、それが私が練習している理由です :) 助けてくれてありがとう! 私も Scrapy 1.1.0 を使用しています。