私は取引アグリゲーターを構築しているので、いくつかのサイトからデータを抽出するクローラーが必要です:価格、割引、画像、座標、および取引の名前。
チュートリアル、電子ブック、または私を助ける何かを知っていますか?画像と座標と割引については、解決策とパターンがあります。
- 画像:最大の画像は常に取引のメイン画像です
- 割引:割引は常に50から99までの数字であり、常に「%」記号が付いています
- 座標:常に10進数なので、正規表現で取得します
次のアイテムを入手するにはどうすればよいですか?
- 取引名は?
- 価格?
役立つデータ抽出アルゴリズムを知っていますか?