C# を使用して不正な形式の HTML を修復するにはどうすればよいですか? 素晴らしい答えは、HTML Agility Pack のサンプルです!
サイトをスクレイピングしています (正当な使用のため)。サイトの HTML は問題ありませんが、厄介な問題がいくつかあります。
私が行くことができる1つの方法は、正規表現を使用することです。Expression Web を使用して問題を分析し、それらを修正するために必要な正規表現を使用しました。1 つの方法は、RegexBuddyなどのツールを使用して、これらの正規表現の C# コードを生成することです。
ただし、C# で不正な形式の HTML を処理するための推奨ツールは、HTML Agility Pack (HAP) です。さらに、私はほんの一握りのページしか分析していませんが、将来のページにはまだ解決していないパターンが含まれているのではないかと心配しており、「次の数ページでエラーを見つけて修正する」メンテナンスに入るのは嫌です仕事。したがって、HAP が安定した、常に機能するソリューションを既に持っている場合、これは素晴らしいことです。問題は、SO でのいくつかの言及を除いて、オブジェクトごとの API ヘルプ ファイルを除いて、このツールの使用方法に関するドキュメントを見つけることができなかったことです。
では、RegexBuddy (無料の評価版はありません) にお金と時間を費やす前に、または HAP の API ドキュメントで歯を磨く前に、これを行う簡単な方法はありますか? HAP サンプルが役立ちます... :-)