Hpricot を使用してテーマ ファイルを解析しています。ただし、有効な HTML5 ドキュメントを Hpricot() にフィードすると、HTML5 タグ ( など<section>
) が自動的に閉じられ、DOCTYPE
.
HTML5 ドキュメントを正しく解析できるようにする Hpricot の拡張機能、または設定する必要があるフラグはありますか?
Hpricot を使用してテーマ ファイルを解析しています。ただし、有効な HTML5 ドキュメントを Hpricot() にフィードすると、HTML5 タグ ( など<section>
) が自動的に閉じられ、DOCTYPE
.
HTML5 ドキュメントを正しく解析できるようにする Hpricot の拡張機能、または設定する必要があるフラグはありますか?
直接の質問を回避できることは知っていますが、質問投稿のコメントの一部に記載されているように、 Nokogirihttp : //nokogiri.org/を試してみることをお勧めします。HTML5を含む構造化テキストのようなHTML/XMLの解析に問題はありませんでした。
I think Hpricot's to_original_html method is exactly what you're looking for.
From the docs, to_original_html
Attempts to preserve the original HTML of the document, only outputing new tags for elements which have changed.