Java を使用して非常に単純な Webクローラーを実装したいのですが、次のライブラリを見つけました。
次のことを行うクローラーが必要です。
URL(私が指定)から開始し、現在のページに自分の名前や会社名などの特定の単語があるかどうかを認識します(この単語も私が指定します)
この単語が見つかった場合、現在のページの URL をデータベースに保存する必要があります。
したがって、意味分析はなく、構文分析のみが行われます (クローラーは、Web ページのコンテンツを、私が指定したトークンと一致させようとする必要があります)。
このトークン調査 (現在のページに単語が含まれているかどうかを調べる) が、 WebCrawler
crawler4j の抽象クラスによって実装された機能なのか、それとも自分で実装する必要があるのかがわかります。