wget を使用して作業中の Web ページを取得しようとしていますが、これは次のコマンドを使用してほとんどのサイトでうまくいきます。
wget -p -k http://www.example.com
これらの場合、index.html と必要な CSS/JS などで終わります。
ただし、特定の状況では、URL にクエリ文字列が含まれ、そのような場合、クエリ文字列が追加された index.html が取得されます。
例
www.onlinetechvision.com/?p=566
上記の wget コマンドと組み合わせると、次のようになります。
index.html?page=566
--restrict-file-names=windows オプションを使用してみましたが、それだけでは
index.html@page=566
これが必要な理由と、通常の index.html ファイルで終わる方法を誰かが説明できますか?
更新: 私は、別のアプローチを取ることについて、一種のフェンスにいます。出力を解析することで、wget が保存する最初のファイル名を取得できることがわかりました。したがって、保存先: の後に表示される名前が必要な名前です。
しかし、これはこの奇妙な文字によってラップされています - ハードコーディングされたものを単に削除するのではなく - これはどこから来たのでしょうか?