0

プログラムでこれを行いたい:

ページの URL が与えられたら、ページ上のすべてのリンクを取得する必要があります。重要なのは、少なくとも 3 つのリンク情報 (アンカー テキスト、href属性値、ページ上のリンクの絶対位置) を取得する必要があるということです。

Java CSSBox ライブラリはオプションですが、まだ完全には実装されていません (href属性値を同時に取得することはできず、Jsoup などの追加ライブラリで追加のマッピングを行う必要があります)。さらに、CSSBox ライブラリはページのレンダリングが非常に遅くなります。

JavaScript にはすべての機能が備わっているように見えますが、JavaScript コードをページに挿入し、既存のブラウザーを利用するためのドライバーを作成する必要があります。Python や Ruby などのスクリプト言語もこれをサポートしています。最も便利なツールを見つけるのは難しいです。

4

1 に答える 1

0

PHP の DOM 操作ライブラリは役に立ちますか? http://www.php.net/manual/en/book.dom.php

于 2012-10-18T03:25:31.170 に答える