Wget がリンクを適切にたどるのに問題があります。ページのレンダリングに必要なすべてのファイルを取得し、同じ親ディレクトリにある限り、外部リンクも含めます。残念ながら、ページに埋め込まれた外部リンクが同じドメインにあるが別のディレクトリにある場合、それらのリンクは取得されません。リンクを 1 レベル進むだけで済みますが、必要なリンクにはディレクトリの index.html がない (つまり、直接リンク) という事実により、さらに複雑になります。
これが私がこれまでに持っているものです:
wget -r -m -k -K -p -np -nH --cut-dirs=4 -R --adjust-extension -P games/$(date +\%Y-\%m-\%d) http://www.website.org/export/sites/admin/games/types/ http://www.website.org/export/sites/admin/games/types/
これは基本的にディレクトリをクロールし、すべてのファイル (主に HTML ファイル) を取得します。それは完全に機能し、取得したコンテンツ内に直接リンクされているファイルを除いて、必要なものすべてを取得します。
取得する85393283_poker.html
とします-そのファイルにはリンクがあります:(http://www.website.org/export/sites/admin/documents/tables/secondarytables.pdf
これは別のディレクトリであることに注意してください)
まあ、それはそのファイルを取得しません。最初のクエリから取得されたすべての HTML ファイルには、2 番目のクエリのリンクが含まれています。肝心なのは、2 番目のリンクを取得しないということです。
いろいろ調べてみましたが、よくわかりません。wget
別のクエリを試しました/tables
が、html またはインデックスがないためクロールされません。
どんな助けにも感謝します!ありがとう