html - htmltidyが修正しない不正な形式のhtmlを修正する

Question

さて、私はHTML tidyを利用して、通常のHTMLWebページを解析に適したXHTMLに変換してきました。問題は、Firefoxに保存したテストページのhtmlが、保存中にFirefoxによって多少事前にクリーンアップされていることです。これをファイルFと呼びます。HtmltidyはファイルFで正常に機能しますが、.NET（ファイルN）を介してファイルに書き込まれた生データでは失敗します。）。Html tidyは、フォームタグがテーブルタグと混在していることに不満を持っています。HTMLは私のものではないので、ソースを修正することはできません。

ファイルNを十分にクリーンアップして、Htmlを整理して実行できるようにするにはどうすればよいですか？Firefox（マウスやキーボードを使用せずに完全にプログラムで）またはHTMLに追加の修正を適用する別のツールに接続する標準的な方法はありますか？

score 1 · Accepted Answer

しばらくの間、HTML tidy を使用していましたが、TagSoupからより良い結果が得られていることがわかりました。

JAXP パーサーとして使用でき、整形式でない HTML をオンザフライで変換できます。私は通常、Saxon XQuery 変換の入力を解析させます。

ただし、スタンドアロンのユーティリティとして、実行可能な jar として使用することもできます。

score 0 · Accepted Answer

C# で SendKeys を使用し、user32.dll から関数をインポートして、必要な Web サイト (file:///myfilepathhere/) を起動した後、Firefox をアクティブウィンドウとして設定しました。

SendKeys では、ウィンドウプログラムを実行する必要があるようだったので、form_load() メソッドでアクションを実行する別の実行可能ファイルも追加しました。

alt+f を 6 回押して Enter キーを押し、少し待ってフルパスファイル名を入力し、(2 回) Enter キーを押してから firefox を強制終了することで、いくつかの HTML をクリーンアップする firefox の機能を自動化することができました。

html - htmltidyが修正しない不正な形式のhtmlを修正する

2 に答える 2

Related

Reference