0

Web クローラーとして web.response メソッドを使用して情報を収集しています。それを文字列にまとめてテキスト ファイルに保存します。次に、正規表現を使用してそのテキスト ファイルを検索します。問題は、正規表現を使用してそのテキスト ファイルを検索すると、テキスト ファイルにランダムな改行が多数含まれているため、適切に検索できないことです。

私の質問は、「web.response メソッドで取得した XML (HTML) ドキュメントを、テキスト ファイルに保存する前に適切にフォーマットして、テキストにランダムなスペースや改行が入らないようにする方法はありますか?フォーマットされていない HTML をここに投稿してください。

4

2 に答える 2

0

インターネットはこれを行うことを嫌うかもしれませんが、次のような事前定義された基準がある場合は、文字列を変換できます。

var formattedHtml = html.Replace(Environment.NewLine, "");
于 2013-01-25T16:47:58.407 に答える
0

これで問題が解決する可能性があります。しかし、パフォーマンスの観点からは、bad solution.

応答に対して次のアクションを実行します

  1. >と記号の間のコンテンツを抽出し、<空白のトリム操作を実行します
  2. 残りの新しい行がある場合はすべて削除します

もう1つbetter solutionは、文字列を検索するためのより優れた正規表現を使用します

于 2013-01-25T18:02:40.883 に答える