tidy-ext gemを使用して、取得した HTML を整理しようとしています。ただし、HTML がかなり壊れていると失敗するため、最初に Nokogiri を使用して HTML を修復しようとしています。
repaired_html = Nokogiri::HTML.parse(a.raw_html).to_html
うまく機能しているように見えますが、最近、FBML マークアップを HTML ドキュメントに挿入したサンプルに遭遇しました<fb:like>
。これは、無効であるにもかかわらず Nokogiri によって何らかの方法で保存されています。次に、TidyはError: <fb:like> is not recognized!
どちらが理解できるかを言います。
strictや Nokogiri に有効な HTML タグのみを含め、他のすべてを省略させるようなオプションが他にあるのでしょうか?