html - クローラー4jを使用してWebサイトをクロールするときにリンクのリンクテキストを取得します

Question

私はクローラー4jを使用してWebサイトをクロールしています。ページにアクセスしたときに、完全な URL だけでなく、すべてのリンクのリンクテキストを取得したいと考えています。これは可能ですか？

前もって感謝します。

score 1 · Accepted Answer

WebCrawler から派生したクラスで、ページのコンテンツを取得し、正規表現を適用します。

Map<String, String> urlLinkText = new HashMap<String, String>();
String content = new String(page.getContentData(), page.getContentCharset());
Pattern pattern = Pattern.compile("<a[^>]*href=\"([^\"]*)\"[^>]*>([^<]*)</a[^>]*>", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(content);
while (matcher.find()) {
    urlLinkText.put(matcher.group(1), matcher.group(2));
}

次に、クロールが完了したらアクセスできる場所に urlLinkText を貼り付けます。たとえば、クローラークラスのプライベートメンバーにして、ゲッターを追加することができます。

html - クローラー4jを使用してWebサイトをクロールするときにリンクのリンクテキストを取得します

1 に答える 1

Related

Reference