問題タブ [scrapy-pipeline]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

201 問題

0 投票する

2 に答える

618 参照

python - 複数のテーブルをスクレイピングし、各テーブルヘッダーを行として csv に保存する

h3 タグの下にテーブル名が格納されている複数のテーブルをスクレイピングしようとしています。問題なくスクレイピングできるデータの列があり、次の URL をフィードすると、このデータを csv ファイルに追加できます。私が解決できない問題は、テーブルヘッダーを取得し、これをテーブルの各行に相対的に保存することです。この理由は、次のテーブルが供給されるときに、それがどのテーブルに属しているかを知る必要があるためです。テーブルの長さを確立し、各行にテーブルヘッダーを書き込むために「ラウンド」と言う len ループを使用することは可能ですか? アイテムの輸出は可能ですか？

ここに私のコード Spider.py があります

アイテム.py

2017-11-16T01:38:03.697

0 投票する

2 に答える

517 参照

python-3.x - Scrapy パイプラインクラスのインスタンスへのアクセス

アクティブなpostgreSQL接続を利用するために変数にアクセスしたいのですself.cursorが、パイプラインクラスのscrapyのインスタンスにアクセスする方法がわかりません。

process_itemを使用してアクセスできることに注意してください。ただし、yield itemその関数は他のことを行っており、in経由self.cursorで接続にアクセスcheckUrlExistし、スパイダーからクラスのインスタンスを自由に呼び出すことができます! ありがとうございました。

python-3.x scrapy scrapy-spider scrapy-pipeline

2017-12-03T06:34:03.823

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapy-pipeline]

python - 複数のテーブルをスクレイピングし、各テーブル ヘッダーを行として csv に保存する

python-3.x - Scrapy パイプライン クラスのインスタンスへのアクセス

Reference

python - 複数のテーブルをスクレイピングし、各テーブルヘッダーを行として csv に保存する

python-3.x - Scrapy パイプラインクラスのインスタンスへのアクセス