2

wgetサイトから Web ページを取得するために (perl から) を使用しています。私は本当に、、、、、ファイルの種類にhtmlのみ興味があります。ただし、少なくとも 1 つのサイトで、拡張子や接尾辞のないファイル名を使用したリンクが提供されています。私もそれらが必要です。htmphpaspaspx

じぶんの:

wget -A html,htm,php,asp,aspx

接尾辞なしのリンクを除いて、うまく機能します。

サフィックスのないページを取得するために多くの正規表現文字列を試しましたが、役に立ちませんでした。wget はメイン ページのみを返します。これまでのところ、これらのファイルを取得する唯一の方法は、すべてのファイルに対して開くことです (これは、この Web サイトにとってはひどいことではありませんが、他のサイトにとってはひどいことです)。

サフィックスのない wget からのリンクが必要であることを指定する正規表現または通常の方法はありますか?

4

1 に答える 1

1

wget バージョン 1.14 は--accept-regex、完全な URL に対して一致する引数をサポートしているようです。つまり、次のようなものが理論的には機能するはずです (テストされていません)。

wget --accept-regex '/[^.]+(?:\.(?:html?|php|aspx?))?$'

それとも、不要な拡張機能を拒否する方が簡単でしょうか?

于 2013-09-23T07:24:00.767 に答える