Web サイトのリストからドメインとパスを抽出したいと考えています。たとえば、Web サイトがhttp://www.domain.com/path1/page1.htmlの場合、http: //www.domain.com/path1/を取得し、Web サイトがhttp://www. domain2.com/path2/page2/ http://www.domain2.com/path2/を取得したいと思います。
ページをダウンロードしてすべてのアンカーを取得しようとしましたが、ファイルの相対パス (この場合は /page1.html と /page2/) しか取得できませんでした。私が望むものを達成する方法はありますか?