python - Amazon からコメントを抽出するための Scrapy と XPath

Question

私はPythonとスクレイピーに比較的慣れていないので、私が取り組もうとしている問題に関して支援が必要です。Amazon をクロールし、scrapy と XPath を使用して特定の製品のユーザーコメントを抽出しようとしています。私が持っている現在のものよりもエレガントなソリューションがあるかどうかを尋ねたかった.

このアドレスからコメントを取得したいとしましょう。コメントページの構造は、抽出しやすいようには見えません (firebug を使用すると、コメント領域だけを囲む特定のタグがないことがわかります)。現在、私は次のセレクターを使用しています:hxs.select('//div/text()').extract()しかし、ご想像のとおり、多くのジャンクデータ"\n\n\n\n\n"などが作成されます。結果を改善できるセレクターを作成するよりエレガントな方法はありますか。

score 0 · Accepted Answer

1 つのオプションは、「 This review is from...」テキストをピボットすることです。このような：

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()

python - Amazon からコメントを抽出するための Scrapy と XPath

1 に答える 1

Related

Reference