c# - C# ですべてのコンテンツを含む Web ページを保存する

Question

Web ページを (ブラウザで行うのと同じように) すべてのコンテンツとフォーマットと共に保存しようとしています。私はWebClient、WebRequestの例を試しましたが、テキスト部分と時々javascriptしかダウンロードできません。しかし、cssや画像などはありません..NetにはこれのためのAPI、または.net用のサードパーティのAPIはありますか?

多くのアプリケーションがオフラインで読むために実行されており、保存されたページが同じフォーマットとスタイルで表示されるため、可能だと思います。それはどのように行われますか？何か案は？

編集 1: Web ページは、HtmlAgilityPack を使用して解析および保存できます。しかし、メインの記事と広告などの他のコンテンツ、他の外部リンクを分離する方法はありますか? 関連するコンテンツと関連しないコンテンツを区別する方法はありますか? （この質問が明確でない場合は申し訳ありません）。

また、これらのオフラインの読書アプリケーション (後で読む/ポケットなど) が Web ページを保存してフォーマットする方法について、何らかの提案をすることもできます。

C#で同じことをする方法はありますか?

score 4 · Accepted Answer

ページテキストを Html としてダウンロードし、それを解析して要素を取得し、属性のリンクを<link rel="stylesheet" type="text/css" href="...">個別にダウンロードすることができます。<img src="..."/>hrefsrc

HtmlAgilityPackは、Html を解析するための信頼性の高い便利なライブラリです。

score 2 · Accepted Answer

あなたはWgetを使うことができます

https://www.gnu.org/software/wget/manual/html_node/Recursive-Download.html#Recursive-Download

score 2 · Accepted Answer

ページをファイルとして保存しようとしているのを見ることができmhtます。これらのファイルは、Web ページとそのすべての参照を 1 つのコンパクトなファイル (.mht) にまとめます。

c# による mht に関する Stackoverflow トピック

注: MHT は Microsoft によって導入されました。すべてのブラウザがこの形式に準拠しているわけではありません。Opera は、MHT を保存している他の一般的なブラウザです。ただし、Firefox ユーザーは、このファイル標準、Mozilla Archive Format および UnMHT を処理するために 2 つのアドオンを呼び出すことができます。これらのアドオンはどちらもインストールして、完全な Web ページを開いて保存するために使用できます。

c# - C# ですべてのコンテンツを含む Web ページを保存する

3 に答える 3

Related

Reference