私はPythonとスクレイピーに比較的慣れていないので、私が取り組もうとしている問題に関して支援が必要です。Amazon をクロールし、scrapy と XPath を使用して特定の製品のユーザー コメントを抽出しようとしています。私が持っている現在のものよりもエレガントなソリューションがあるかどうかを尋ねたかった.
このアドレスからコメントを取得したいとしましょう。コメント ページの構造は、抽出しやすいようには見えません (firebug を使用すると、コメント領域だけを囲む特定のタグがないことがわかります)。現在、私は次のセレクターを使用しています:hxs.select('//div/text()').extract()
しかし、ご想像のとおり、多くのジャンク データ"\n\n\n\n\n"
などが作成されます。結果を改善できるセレクターを作成するよりエレガントな方法はありますか。