-1

Web ページ上のデータをクロールし (Web ページのリンクが入力として提供されます)、データを JSON/xml 形式で返す API を設計/作成したいと考えています。

特定の方向を見始めることができるように、助けを求めています。

4

1 に答える 1

0

質問はあまり明確ではありませんが、入力 HTML ページを解析してそこからアウトリンクを取得したいだけの場合は、次のように実行できます。

  1. HTML ページを入力ストリームとして取得する
  2. jtidy またはその他の HTML DOM パーサーを使用して、そこから DOM を作成します。
  3. DOM を取得したら、すべてを取得します。
  4. 、href、要素、およびすべてのアウトリンクがあります。

一般に、クロールとは、グラフ内の複数のページを含み、これらのリンクを使用してあるページから別のページに移動する必要があります。したがって、特定のページをクロールすることは正しくありません。

于 2013-03-15T12:23:37.427 に答える