cheerioとnode.jsを使用してWebページを解析し、cssセレクターを使用してその上のデータを検索しています。Cheerioは、不正な形式のhtmlではあまりうまく機能しません。jsdomの方が寛容ですが、どちらも動作が異なり、特定の場合にもう一方が正常に機能すると、両方が機能しなくなるのを確認しました。
Chromeは、DOMの作成において同じ不正な形式のhtmlでうまく機能しているようです。
不正な形式のHTMLからDOMを作成するChromeの機能を複製し、このDOMの「クリーンな」html表現を処理のためにcheerioに渡すにはどうすればよいですか?
このようにして、取得したhtmlが整形式であることがわかります。page.contentを設定してphantomjsを試しましたが、page.contentの値を読み取っても、htmlの形式が正しくありません。