XPatherプラグインによって生成されたxpathをhtmlに対して評価してコンテンツを取得するためにHtmlCleaner2.1ライブラリを使用しています。ただし、HtmlCleanerがxpathの評価に失敗する場合があります。
例 http://www.megaoutdoors.co.uk/norwegen-army-shirt-zipped-roll-top-collar-278-p.asp
製品タイトルの場合、XPatherによって指定されるxpathは// body / div [11] / div [6] / div [2] / form / div [1] / h1 ですが、HtmlCleanerを使用して評価すると失敗します。
この問題をどのように克服できますか。htmlcleanerがページをクリーンアップすると、ページの構造は変わりますか?
ありがとう
Jitendra