1

生のhtmlを消去して有効なxml出力を生成するときに、HtmlCleanerがIframeを処理する方法を理解したいと思います。iframe を使用したページの一例は、この ebay 製品ページです。

このページの HtmlCleaner の出力を印刷すると、一部の iframe タグがそのままで、他のタグが欠落していることがわかります。欠落している iframe の 1 つは、id="d" の iframe です。製品の説明が含まれており、その本文はメイン ページに統合されています。

HTML クリーナーの XML 出力: http://pastebin.com/03f9gtdC

誰かが親切にそれを見るか、iframe を適切に処理できるより良い HTML 解析ライブラリを提案してください。そのライブラリは、XPath 評価をサポートできる必要があります。

4

0 に答える 0