java - crawler4j ライブラリを使用した Java Web クローラーでのパターンマッチングに関する情報

Question

Java を使用して非常に単純な Webクローラーを実装したいのですが、次のライブラリを見つけました。

次のことを行うクローラーが必要です。

URL（私が指定）から開始し、現在のページに自分の名前や会社名などの特定の単語があるかどうかを認識します（この単語も私が指定します）

この単語が見つかった場合、現在のページの URL をデータベースに保存する必要があります。

したがって、意味分析はなく、構文分析のみが行われます (クローラーは、Web ページのコンテンツを、私が指定したトークンと一致させようとする必要があります)。

このトークン調査 (現在のページに単語が含まれているかどうかを調べる) が、 WebCrawlercrawler4j の抽象クラスによって実装された機能なのか、それとも自分で実装する必要があるのかがわかります。

score 2 · Accepted Answer

user1887511 が指摘したように、実装は非常に簡単です。ここから適応。

  static String wordToFind = "...";
  public void visit(Page page) {          
            if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String text = htmlParseData.getText();
                    if(text.indexOf(wordToFind)!=-1)
                            saveToDB(page.getWebURL().getURL()):
            }
  }

score 1 · Accepted Answer

自分で実装する必要があります。コードの開始点は visit() サブクラス/メソッドになります。これは、ページが訪問されたときに呼び出されます...そして解析されてから、ページでやりたいことが何でもできます- text ...たとえば、正規表現パターンを使用します。

java - crawler4j ライブラリを使用した Java Web クローラーでのパターン マッチングに関する情報

2 に答える 2

Related

Reference

java - crawler4j ライブラリを使用した Java Web クローラーでのパターンマッチングに関する情報