問題タブ [scrapy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python の「Scrapy」の使用エラー
Python 2.7 に最新バージョンの Scrapy をインストールしました (はい、まだこのバージョンを使用しています)。Scrapy のチュートリアル スクリプトの実行中にエラーが発生します。私が実行しているコードは次のとおりです。
エラーは次のとおりです。
チュートリアル スクリプトはデスクトップにあります。これは効果がありますか、別の場所に置く必要がありますか?
python - Scrapy、python、Xpathhtmlのそれぞれのアイテムを一致させる方法
私はXpathを初めて使用し、以下の形式でWebサイトをスクレイプしようとしています。
Listed_valueとlisted_dateの存在はオプションです。
各tittle_nameをそれぞれlisted_date、listed_value(使用可能な場合)でグループ化してから、リーチレコードをMySQLに挿入する必要があります。
私はスクレイプシェルを使用しています。
上記のコードは、tittle_nameのリストと利用可能なlisted_date、listed_valueのリストを示していますが、それらを一致させる方法は?(形式が対称ではないため、インデックスで移動することはできません)。
ありがとう。
python - ScrapyBodyテキストのみ
Python Scrapyを使用して本文からのみテキストをスクレイプしようとしていますが、まだ運がありません。
<body>
何人かの学者がここでタグからすべてのテキストを削るのを手伝ってくれるかもしれないことを願っています。
python - ScrapyYahooGroupスパイダー
Yをこすり取ろうとしています!グループと私は1ページからデータを取得できますが、それだけです。私はいくつかの基本的なルールを持っていますが、明らかにそれらは正しくありません。誰かがすでにこれを解決しましたか?
python - Scrapy CrawlSpider 後処理: 平均を見つける
この例に似たクロール スパイダーがあるとします。
各ページの ID の合計や、解析されたすべてのページの説明の平均文字数などの情報を取得したいとします。どうすればいいですか?
また、特定のカテゴリの平均を取得するにはどうすればよいですか?
python - xpathクエリの定式化?
ねえ、私は例えば次のタグを含むhtmlページを持っています:
ここで、Pythonのscrapyフレームワークを使用してクローラーを作成しました。このフレームワークでは、cxxpathクエリを使用してforuriタグを検索しました。これ//@foruri
により、foruri
タグが存在する場合は常にタグが提供されますが、問題はhttpを生成しないことです。
それで私がそれを手に入れるのを手伝ってください?
python - スクレイピーで複数のドメインをスクレイピングする最良の方法は何ですか?
スクレイピングしたい約10の奇妙なサイトがあります。それらのいくつかはワードプレスのブログであり、クラスは異なりますが、同じ html 構造に従っています。その他は、フォーラムまたは他の形式のブログです。
私がスクレイピングしたい情報は一般的です - 投稿の内容、タイムスタンプ、作者、タイトル、コメントです。
私の質問は、ドメインごとに 1 つの個別のスパイダーを作成する必要があるかどうかです。そうでない場合、構成ファイルなどからオプションをロードしてスクレイピングできる汎用スパイダーを作成するにはどうすればよいですか?
コマンドライン経由で場所をロードできるファイルからxpath式をロードできると考えましたが、一部のドメインのスクレイピングで正規表現を使用する必要がある場合とそうでない場合があるため、いくつかの問題があるようselect(expression_here).re(regex)
です。
python - スクレイピーでパラメーター化されたURLをスクレイピングする
私は python のスクレイピーを使用して実行しているスパイダーを持っています。これは&
、http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=467128533&pf_rd_i=468294
.
エラーログは言う[scrapy] ERROR: xxx matching query does not exist.
私は次のように使用しCrawlSpider
ていますSgmlLinkExtractor rule
貴重な時間を割いていただき、誠にありがとうございました。
python - フォーラムのスレッドからの特定のフィールドの抽出
私は、フォーラムのスレッドで議論の進捗状況を分析する必要があるデータマイニングプロジェクトに取り組んでいます。投稿の時間、投稿者の統計(投稿数、参加日など)、投稿のテキストなどの情報を抽出することに興味があります。
ただし、標準のスクレイピングツール(PythonのScrapyなど)を使用している間は、ページのhtmlソースでこれらのフィールドを検出するための正規表現を作成する必要があります。これらのタグはフォーラムの種類によって異なるため、すべてのフォーラムの正規表現に取り組むことが大きな問題になりつつあります。フォーラムの種類に応じて使用できるように、このような正規表現の標準バンクを利用できますか?
または、フォーラムのページからこれらのフィールドを抽出する他の手法はありますか。
python - クローラーでの重複を避ける方法
Python でいくつかのリンクとメタ タグを選択するために、scrapy フレームワークを使用してクローラーを作成しました。次に、開始 URL をクロールし、データを JSON エンコード形式でファイルに書き込みます。問題は、クローラーが 2 回または 3 回実行される場合です。同じ開始 URL を使用すると、ファイル内のデータが重複します。これを回避するために、スクレイピーでダウンローダー ミドルウェアを使用しました。
私がしたことは、上記のコードをスクレイピー プロジェクト内のファイルにコピー アンド ペーストし、次の行を追加して settings.py ファイルで有効にしたことです。
ここで、「a11ypi.removeDuplicates.IgnoreVisitedItems」はクラスパス名です。最後に、items.py ファイルに移動して変更し、次のフィールドを含めました。
しかし、これは機能せず、クローラーは同じ結果を生成し、2 回実行するとファイルに追加します。
次のように、pipelines.py ファイル内のファイルへの書き込みを行いました。
私のスパイダーコードは次のとおりです。
何をすべきかを親切に提案してください。