0

c#.net アプリケーションにテーブル コンテンツとその他の情報が含まれる html ファイルがあります。

一部の列のみテーブルの内容を解析したいのですが、html のパーサーまたは.netのRegexのReplaceメソッドを使用する必要がありますか?

パーサーを使用する場合、パーサーの使用方法は? パーサーはタグ間の情報を抽出しますか? はいの場合、どのように使用しますか? 私はパーサーが初めてなので、可能であれば例を示してください。

RegexクラスのReplaceメソッドを使用する場合、そのメソッドで情報を抽出するファイル名を渡す方法は?

編集:htmlファイルのテーブルから情報を抽出したい。そのために、html agility parser をどのように使用できますか? そのパーサーを使用するには、どのタイプのコードを作成する必要がありますか?

4

2 に答える 2

4

ほぼ同じ質問をして削除しました。これが私が以前に出した答えでした:


HTML Agility Packをお試しください。

例を次に示します。

 HtmlDocument doc = new HtmlDocument();
 doc.Load("file.htm");
 foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"])
 {
    HtmlAttribute att = link["href"];
    att.Value = FixLink(att);
 }
 doc.Save("file.htm");

正規表現に関する追加の質問について: 正規表現を使用して HTML を解析しないでください。これは堅牢なソリューションではありません。上記のライブラリは、はるかに優れた仕事をすることができます。

于 2010-03-03T10:24:29.213 に答える
1

HtmlAgilityPack ....

次回 - 前に答えを検索します。これは確かに重複しています。

少しチュートリアル

于 2010-03-03T10:19:56.983 に答える