ドメイン名を収集したい(クローリング)。HTML ページを読み取り、コードをテキスト ファイルに保存する単純な Java アプリケーションを作成しました。ここで、重複のないすべてのドメイン名を収集するために、このテキストを解析したいと考えています。しかし、「 http://www .」のないドメイン名、 domainname.topleveldmian のみ、または dmianname.subdomain.topleveldomain の可能性、または任意の数のサブドメインが必要です (次に、収集されたリンクを同じ方法で抽出し、特定の数のリンク、たとえば 100 に達するまで、その中のリンクを探します)。
以前の投稿https://stackoverflow.com/questions/11113568/simple-effective-java-web-crawler-to-extract-hostnamesでこれについて質問し、検索しました。JSoup は良い解決策のように思えますが、私は以前に JSoup を使用したことがないので、深く掘り下げる前に。私はただ尋ねたいです:それは私がやりたいことを達成しますか?? 私の単純なクロールを簡単な方法で実現するための他の提案は大歓迎です。