Webクロールを実行しようとしていますが、スラッシュを追加するタイミングの問題に遭遇しました。一部のサイトには最後にそれがあり、一部にはないことを知っていますが、ブラウザに間違ったサイトを入力すると、正しいサイトにリダイレクトされます。正規化は最後にスラッシュを追加しますが、相対URLを絶対URLに変換しようとすると問題が発生します。
たとえば、ユーザーが絶対URLを選択したhttp://stack.com/more
が、実際の(リダイレクト)URLはhttp://stack.com/more/
であり、相対URLはindex.html
その後、URL newurl = new URL(url, relativeURL);
収量http://stack.com/index.html
(存在しないページ)
実際にあるべきときhttp://stack.com/more/index.html
(実際のページ)
最後にスラッシュを正しく追加する良い方法を知っている人はいますか?