1

htmlページを解析し、他の同様のページと比較して一意のデータを抽出できるrubyまたはphpのライブラリはありますか?...ある種のテキストマイニングを使用して、ノイズや繰り返しの可能性が高いテキストを特定する必要があります。テキストはよりユニークで便利です...

4

1 に答える 1

2

私はPHPの人で、Rubyについてはわかりませんが、アーカイブするのは簡単だと思います。

  • SimpleHTMLDOMのようなものを使用してページを解析します。
  • ページごとに、すべてのDOM要素を比較します。
  • 内容が異なるすべての要素のパスを取得します。これらが信号要素になります。
于 2010-01-31T11:52:25.343 に答える