regex - ウェブサイトからのスマートデータ抽出アルゴリズム

Question

私は取引アグリゲーターを構築しているので、いくつかのサイトからデータを抽出するクローラーが必要です：価格、割引、画像、座標、および取引の名前。

チュートリアル、電子ブック、または私を助ける何かを知っていますか？画像と座標と割引については、解決策とパターンがあります。

次のアイテムを入手するにはどうすればよいですか？

役立つデータ抽出アルゴリズムを知っていますか？

score 1 · Accepted Answer

XPath ベースのスクレーパーを使用することをお勧めします。たとえば、Web ハーベスト

または、生のテキストを分析したい場合は、テキストのテンプレート化された部分を認識するためにステートマシンパーサーを使用することをお勧めします。

1 に答える 1