0

私は取引アグリゲーターを構築しているので、いくつかのサイトからデータを抽出するクローラーが必要です:価格、割引、画像、座標、および取引の名前。

チュートリアル、電子ブック、または私を助ける何かを知っていますか?画像と座標と割引については、解決策とパターンがあります。

  • 画像:最大の画像は常に取引のメイン画像です
  • 割引:割引は常に50から99までの数字であり、常に「%」記号が付いています
  • 座標:常に10進数なので、正規表現で取得します

次のアイテムを入手するにはどうすればよいですか?

  • 取引名は?
  • 価格?

役立つデータ抽出アルゴリズムを知っていますか?

4

1 に答える 1

1

XPath ベースのスクレーパーを使用することをお勧めします。たとえば、Web ハーベスト

または、生のテキストを分析したい場合は、テキストのテンプレート化された部分を認識するためにステートマシン パーサーを使用することをお勧めします。

このトピックを見てください: Java でのテキスト分析/マイニング用の API はありますか?

于 2012-06-14T08:44:47.607 に答える