プログラムでこれを行いたい:
ページの URL が与えられたら、ページ上のすべてのリンクを取得する必要があります。重要なのは、少なくとも 3 つのリンク情報 (アンカー テキスト、href
属性値、ページ上のリンクの絶対位置) を取得する必要があるということです。
Java CSSBox ライブラリはオプションですが、まだ完全には実装されていません (href
属性値を同時に取得することはできず、Jsoup などの追加ライブラリで追加のマッピングを行う必要があります)。さらに、CSSBox ライブラリはページのレンダリングが非常に遅くなります。
JavaScript にはすべての機能が備わっているように見えますが、JavaScript コードをページに挿入し、既存のブラウザーを利用するためのドライバーを作成する必要があります。Python や Ruby などのスクリプト言語もこれをサポートしています。最も便利なツールを見つけるのは難しいです。