1

私はPythonとスクレイピーに比較的慣れていないので、私が取り組もうとしている問題に関して支援が必要です。Amazon をクロールし、scrapy と XPath を使用して特定の製品のユーザー コメントを抽出しようとしています。私が持っている現在のものよりもエレガントなソリューションがあるかどうかを尋ねたかった.

このアドレスからコメントを取得したいとしましょう。コメント ページの構造は、抽出しやすいようには見えません (firebug を使用すると、コメント領域だけを囲む特定のタグがないことがわかります)。現在、私は次のセレクターを使用しています:hxs.select('//div/text()').extract()しかし、ご想像のとおり、多くのジャンク データ"\n\n\n\n\n"などが作成されます。結果を改善できるセレクターを作成するよりエレガントな方法はありますか。

4

1 に答える 1

0

1 つのオプションは、「 This review is from...」テキストをピボットすることです。このような:

//table[@id='productReviews']//div[@class='tiny']/following-sibling::text()
于 2012-04-16T01:06:03.670 に答える