c# - 組み込みの正規表現クラスまたはパーサー。html ファイルからタグ間のテキストを抽出するには?

Question

c#.net アプリケーションにテーブルコンテンツとその他の情報が含まれる html ファイルがあります。

一部の列のみテーブルの内容を解析したいのですが、html のパーサーまたは.netのRegexのReplaceメソッドを使用する必要がありますか?

パーサーを使用する場合、パーサーの使用方法は? パーサーはタグ間の情報を抽出しますか? はいの場合、どのように使用しますか? 私はパーサーが初めてなので、可能であれば例を示してください。

RegexクラスのReplaceメソッドを使用する場合、そのメソッドで情報を抽出するファイル名を渡す方法は?

編集：htmlファイルのテーブルから情報を抽出したい。そのために、html agility parser をどのように使用できますか? そのパーサーを使用するには、どのタイプのコードを作成する必要がありますか?

score 4 · Accepted Answer

ほぼ同じ質問をして削除しました。これが私が以前に出した答えでした：

HTML Agility Packをお試しください。

例を次に示します。

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

正規表現に関する追加の質問について: 正規表現を使用して HTML を解析しないでください。これは堅牢なソリューションではありません。上記のライブラリは、はるかに優れた仕事をすることができます。

score 1 · Accepted Answer

HtmlAgilityPack ....

次回 - 前に答えを検索します。これは確かに重複しています。

少しチュートリアル。

c# - 組み込みの正規表現クラスまたはパーサー。html ファイルからタグ間のテキストを抽出するには?

2 に答える 2

Related

Reference