0

私は.netのHtmlTidyにこのライブラリラッパーを使用しています

https://github.com/markbeaton/TidyManaged

簡単な例があります:

using System;
using TidyManaged;

public class Test
{
 public static void Main(string[] args)
 {
   using (Document doc = Document.FromString("<hTml><title>test</tootle>     <body>asd</body>"))
   {
  doc.ShowWarnings = false;
  doc.Quiet = true;
  doc.OutputXhtml = true;
  doc.CleanAndRepair();
  string parsed = doc.Save();
  Console.WriteLine(parsed);
  }
 }
}

「html」タグと「body」タグを含む完全なページではなく、HTML の一部にライブラリを使用したいのですが、可能ですか?

私は基本的に、開始タグと終了タグなどを検証し、一致する開始タグがないタグを削除したいと考えています。他の優れたツールが適しています。

4

2 に答える 2

1

私はこれに対する答えを見つけました:

 doc.OutputBodyOnly = AutoBool.Yes;

しかし、結果として、UTF-8 の代わりに意味不明な文字を取得し (ヘブライ文字を使用しています)、3 年前の未解決のバグであることがわかりました.... https://github.com/markbeaton/TidyManaged/issues/2 これは問題を解決しませんでした: doc.InputCharacterEncoding = TidyManaged.EncodingType.Utf8; doc.OutputCharacterEncoding = TidyManaged.EncodingType.Utf8;

@Oscar私はあなたの推薦をチェックしますありがとう

于 2014-03-27T12:25:02.797 に答える
0

Tidy .Net で過去に良い結果が得られました

http://sourceforge.net/projects/tidynet/

于 2014-03-27T10:34:01.630 に答える