問題タブ [scrapy-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 複数のテーブルをスクレイピングし、各テーブル ヘッダーを行として csv に保存する
h3 タグの下にテーブル名が格納されている複数のテーブルをスクレイピングしようとしています。問題なくスクレイピングできるデータの列があり、次の URL をフィードすると、このデータを csv ファイルに追加できます。私が解決できない問題は、テーブル ヘッダーを取得し、これをテーブルの各行に相対的に保存することです。この理由は、次のテーブルが供給されるときに、それがどのテーブルに属しているかを知る必要があるためです。テーブルの長さを確立し、各行にテーブル ヘッダーを書き込むために「ラウンド」と言う len ループを使用することは可能ですか? アイテムの輸出は可能ですか?
ここに私のコード Spider.py があります
アイテム.py
python-3.x - Scrapy パイプライン クラスのインスタンスへのアクセス
アクティブなpostgreSQL接続を利用するために変数にアクセスしたいのですself.cursor
が、パイプラインクラスのscrapyのインスタンスにアクセスする方法がわかりません。
process_item
を使用してアクセスできることに注意してください。ただし、yield item
その関数は他のことを行っており、in経由self.cursor
で接続にアクセスcheckUrlExist
し、スパイダーからクラスのインスタンスを自由に呼び出すことができます! ありがとうございました。