wget
サイトから Web ページを取得するために (perl から) を使用しています。私は本当に、、、、、ファイルの種類にhtml
のみ興味があります。ただし、少なくとも 1 つのサイトで、拡張子や接尾辞のないファイル名を使用したリンクが提供されています。私もそれらが必要です。htm
php
asp
aspx
じぶんの:
wget -A html,htm,php,asp,aspx
接尾辞なしのリンクを除いて、うまく機能します。
サフィックスのないページを取得するために多くの正規表現文字列を試しましたが、役に立ちませんでした。wget はメイン ページのみを返します。これまでのところ、これらのファイルを取得する唯一の方法は、すべてのファイルに対して開くことです (これは、この Web サイトにとってはひどいことではありませんが、他のサイトにとってはひどいことです)。
サフィックスのない wget からのリンクが必要であることを指定する正規表現または通常の方法はありますか?