c# - Html パーサー - C# 正規表現の HTML タグ (div、img、a、h5 など) と属性

Question

Html パーサー - C# 正規表現 html タグコンテンツ >me im the content< (div、img、a、h5 など) html タグはさまざまな方法で閉じられています。

なぜこれを行うのかと尋ねるかもしれません。Home -> Casa などのフレーズ置換を実行するプロトタイプコードを継承しました。(スペイン語). ご想像のとおり、「新しい連絡先を追加」など、長さや単語数がさまざまなフレーズ (350 以上) がたくさんあります。

最初の要件: タグの内容を引き出すには正規表現が必要です。出力は次のようになります: 正規表現によって照合されるコンテンツは次のとおりです。これにより、文字列をさらに操作して、句の置換を実行できるようになります。

2 番目の要件: 正規表現によって一致するコンテンツは次のとおりです/> 次のような属性タグのコンテンツを引き出すには、正規表現が必要です。出力は次のようにする必要があります。

HTML Agility Pack を使用して応答しないでください。私は、次のものを見ることを許可しないオーダーメイドの要件を持っています: 整形式の文書。b. クライアント側の XSL 変換 c. コンテンツを決定する Xml データアイランド。

string file = @"<html>
        <body>
            <input class='moth'>Add New Organisation  </>
<input class='moth'>Org&#160;role
 </>
         </body>
           </html>";

string searchText = "Add New Organisation";

<([\d\w]*)\b[^>]*>([\d\w\s]*?{0}[\d\w\s]*)

だから誰でも助けることができます。これまでのところ、私はこの正規表現を使用しています..

 var myContentMatches = new List<string>
            (Regex.Matches(file, regExpressionContent.ToString(),
            RegexOptions.IgnoreCase
                | RegexOptions.IgnorePatternWhitespace
                | RegexOptions.Multiline)
            .Cast<Match>().Select(pp => pp.ToString()));

ここで質問を過負荷にしないようにしています。さらに詳しい情報が必要な場合はお問い合わせください。私はしばらくの間、速度と正しいマッチングに頭を悩ませてきました。

score 0 · Accepted Answer

HAPを使用することで、私の要件の一部が解決されたので、この質問を締めくくります。ご提案ありがとうございます。

score 0 · Accepted Answer

HTML は通常の言語ではないため、正規表現で解析できません。HTML を解析するために既存のライブラリを活用しないという、あなたの問題に対する現実的な解決策があるとは思えません。

これは、StackOverflow で最も投票数の多い質問と回答の組み合わせの 1 つです。次の記事をお読みになることをお勧めします。

c# - Html パーサー - C# 正規表現の HTML タグ (div、img、a、h5 など) と属性

2 に答える 2

Related

Reference