問題タブ [scrapy-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
618 参照

python - 複数のテーブルをスクレイピングし、各テーブル ヘッダーを行として csv に保存する

h3 タグの下にテーブル名が格納されている複数のテーブルをスクレイピングしようとしています。問題なくスクレイピングできるデータの列があり、次の URL をフィードすると、このデータを csv ファイルに追加できます。私が解決できない問題は、テーブル ヘッダーを取得し、これをテーブルの各行に相対的に保存することです。この理由は、次のテーブルが供給されるときに、それがどのテーブルに属しているかを知る必要があるためです。テーブルの長さを確立し、各行にテーブル ヘッダーを書き込むために「ラウンド」と言う len ループを使用することは可能ですか? アイテムの輸出は可能ですか?

ここに私のコード Spider.py があります

アイテム.py

0 投票する
2 に答える
517 参照

python-3.x - Scrapy パイプライン クラスのインスタンスへのアクセス

アクティブなpostgreSQL接続を利用するために変数にアクセスしたいのですself.cursorが、パイプラインクラスのscrapyのインスタンスにアクセスする方法がわかりません。

process_itemを使用してアクセスできることに注意してください。ただし、yield itemその関数は他のことを行っており、in経由self.cursorで接続にアクセスcheckUrlExistし、スパイダーからクラスのインスタンスを自由に呼び出すことができます! ありがとうございました。