Html パーサー - C# 正規表現 html タグ コンテンツ >me im the content< (div、img、a、h5 など) html タグはさまざまな方法で閉じられています。
なぜこれを行うのかと尋ねるかもしれません。Home -> Casa などのフレーズ置換を実行するプロトタイプ コードを継承しました。(スペイン語). ご想像のとおり、「新しい連絡先を追加」など、長さや単語数がさまざまなフレーズ (350 以上) がたくさんあります。
最初の要件: タグの内容を引き出すには正規表現が必要です。出力は次のようになります: 正規表現によって照合されるコンテンツは次のとおりです。これにより、文字列をさらに操作して、句の置換を実行できるようになります。
2 番目の要件: 正規表現によって一致するコンテンツは次のとおりです/> 次のような属性タグのコンテンツを引き出すには、正規表現が必要です。出力は次のようにする必要があります。
HTML Agility Pack を使用して応答しないでください。私は、次のものを見ることを許可しないオーダーメイドの要件を持っています: 整形式の文書。b. クライアント側の XSL 変換 c. コンテンツを決定する Xml データ アイランド。
string file = @"<html>
<body>
<input class='moth'>Add New Organisation </>
<input class='moth'>Org role
</>
</body>
</html>";
string searchText = "Add New Organisation";
<([\d\w]*)\b[^>]*>([\d\w\s]*?{0}[\d\w\s]*)
だから誰でも助けることができます。これまでのところ、私はこの正規表現を使用しています..
var myContentMatches = new List<string>
(Regex.Matches(file, regExpressionContent.ToString(),
RegexOptions.IgnoreCase
| RegexOptions.IgnorePatternWhitespace
| RegexOptions.Multiline)
.Cast<Match>().Select(pp => pp.ToString()));
ここで質問を過負荷にしないようにしています。さらに詳しい情報が必要な場合はお問い合わせください。私はしばらくの間、速度と正しいマッチングに頭を悩ませてきました。