-1

ドメイン名を収集したい(クローリング)。HTML ページを読み取り、コードをテキスト ファイルに保存する単純な Java アプリケーションを作成しました。ここで、重複のないすべてのドメイン名を収集するために、このテキストを解析したいと考えています。しかし、「 http://www .」のないドメイン名、 domainname.topleveldmian のみ、または dmianname.subdomain.topleveldomain の可能性、または任意の数のサブドメインが必要です (次に、収集されたリンクを同じ方法で抽出し、特定の数のリンク、たとえば 100 に達するまで、その中のリンクを探します)。

以前の投稿https://stackoverflow.com/questions/11113568/simple-effective-java-web-crawler-to-extract-hostnamesでこれについて質問し、検索しました。JSoup は良い解決策のように思えますが、私は以前に JSoup を使用したことがないので、深く掘り下げる前に。私はただ尋ねたいです:それは私がやりたいことを達成しますか?? 私の単純なクロールを簡単な方法で実現するための他の提案は大歓迎です。

4

1 に答える 1

-1

jsoup は、実際の HTML を操作するための Java ライブラリです。DOM、CSS、および jquery に似たメソッドを最大限に活用して、データを抽出および操作するための非常に便利な API を提供します。

そうです、ウェブサイトに接続してそのhtmlを抽出し、それをjsoupで解析できます

トップレベルドメインを抽出するロジックは「あなたの部分」であり、コードロジックを自分で書く必要があります。


その他のオプションについては、ドキュメントをご覧ください...

セレクター構文を使用して要素を検索する

DOM メソッドを使用してドキュメントをナビゲートする

于 2012-06-21T16:58:13.157 に答える