-3

私はwget、いくつかの Web サイトやブログ記事を Web から自動的にダウンロードするために使用しています。

リンク付きのリスト (動的で変更可能なもの) をwget渡すと、渡されたリンクからコンテンツをダウンロードする必要があります。

ユーザーがwget.

しかし、このアプローチはすべて、Wordpress の記事や、js、css ファイルが別のドメインでホストされている他のサイトでは機能しません。

たとえば、ブログの URL に wordpress.com が含まれている場合、css、js ファイルは wp.com のどこかにホストされています。

また、http://www.example.com/2013/01/04/article-title/その記事のみをダウンロードする必要があり、他の記事をダウンロードする必要がない場合でも、属性 --no-parent wget を使用すると、JS と CSS はまったくダウンロードされません。これらのファイルは記事のパスよりも高いレベルにあるためです。

wgetHTMLではなく単一ファイルのダウンロードに適しているため、誰かが代替手段を知っているのではないでしょうか?

私は試した:

wget -Ep --convert-links http://www.example.com/2013/01/04/article-title/

これは、js、css なしで html のみを返します。

更新: 質問: Web サイトのコンテンツをダウンロードでき、wget と同じ機能を持つ、.net のフレームワークであるツールはありますか。

更新 2: わかりました、wget ダウンロードの方が優れていることがわかりました (よりクリーンで必要なスペースが少なくて済みます)。superuser.com へのリンクをありがとう、wget で解決策を見つけました:

wget -H -N -k -p --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" someurl --content-disposition
4

3 に答える 3

2

サイトのミラーを作成するには、httrackを確認してください。

于 2013-01-18T10:33:50.710 に答える
0

オンラインで読む場合は、Pocketをお勧めします。

どちらにも、chrome 用の拡張機能と Firefox 用のアドオンがあります。

記事のコピーを保存するには、EvernoteClearlyを使用すると良い結果が得られます。

于 2013-01-18T10:38:04.820 に答える
-1

「wget は html ではなく、単一ファイルのダウンロードに適しています」と自分自身で言います。まあ、それは単一のファイル(またはコマンドラインオプションに応じてバッチファイル)をダウンロードできますが、それらを解析しません. そして、それがあなたがここで望んでいるようです。

オプションを使用することを提案するこの回答を見てください。スクリプトまたはプログラム内から呼び出すことができるという利点がありますが、私が提供した他の回答は手動でしか使用できません。lynx-dump

于 2013-01-18T10:42:48.210 に答える