私はwget
、いくつかの Web サイトやブログ記事を Web から自動的にダウンロードするために使用しています。
リンク付きのリスト (動的で変更可能なもの) をwget
渡すと、渡されたリンクからコンテンツをダウンロードする必要があります。
ユーザーがwget
.
しかし、このアプローチはすべて、Wordpress の記事や、js、css ファイルが別のドメインでホストされている他のサイトでは機能しません。
たとえば、ブログの URL に wordpress.com が含まれている場合、css、js ファイルは wp.com のどこかにホストされています。
また、http://www.example.com/2013/01/04/article-title/
その記事のみをダウンロードする必要があり、他の記事をダウンロードする必要がない場合でも、属性
--no-parent
wget を使用すると、JS と CSS はまったくダウンロードされません。これらのファイルは記事のパスよりも高いレベルにあるためです。
wget
HTMLではなく単一ファイルのダウンロードに適しているため、誰かが代替手段を知っているのではないでしょうか?
私は試した:
wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/
これは、js、css なしで html のみを返します。
更新: 質問: Web サイトのコンテンツをダウンロードでき、wget と同じ機能を持つ、.net のフレームワークであるツールはありますか。
更新 2: わかりました、wget ダウンロードの方が優れていることがわかりました (よりクリーンで必要なスペースが少なくて済みます)。superuser.com へのリンクをありがとう、wget で解決策を見つけました:
wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition