c# - テキストファイルに保存する前に web.response ストリームをフォーマットする方法

Question

Web クローラーとして web.response メソッドを使用して情報を収集しています。それを文字列にまとめてテキストファイルに保存します。次に、正規表現を使用してそのテキストファイルを検索します。問題は、正規表現を使用してそのテキストファイルを検索すると、テキストファイルにランダムな改行が多数含まれているため、適切に検索できないことです。

私の質問は、「web.response メソッドで取得した XML (HTML) ドキュメントを、テキストファイルに保存する前に適切にフォーマットして、テキストにランダムなスペースや改行が入らないようにする方法はありますか?フォーマットされていない HTML をここに投稿してください。

score 0 · Accepted Answer

インターネットはこれを行うことを嫌うかもしれませんが、次のような事前定義された基準がある場合は、文字列を変換できます。

var formattedHtml = html.Replace(Environment.NewLine, "");

score 0 · Accepted Answer

これで問題が解決する可能性があります。しかし、パフォーマンスの観点からは、bad solution.

応答に対して次のアクションを実行します

>と記号の間のコンテンツを抽出し、<空白のトリム操作を実行します
残りの新しい行がある場合はすべて削除します

もう1つbetter solutionは、文字列を検索するためのより優れた正規表現を使用します

c# - テキスト ファイルに保存する前に web.response ストリームをフォーマットする方法

2 に答える 2

Related

Reference

c# - テキストファイルに保存する前に web.response ストリームをフォーマットする方法