このウェブサイトからデータを抽出しています。Web サイトと同じ文字セットである xml に UTF-8 を使用しているため、データが正しくエンコードされない理由がよくわかりません。
たとえば、このページAstrit Ajdarević
から、代わりにAstrit Ajdarević
、およびStandard Liège
代わりにStandard Liège
...
詳細:どのように抽出しますか?
さて、私はそれを解析する前にHTMLページを有効なxmlに変換するWebHarvestを使用しています。
したがって、上記の例では、//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()
getAstrit Ajdarević
と//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]
get Standard Liège
...を使用します。
これがあなたの質問に答えてくれることを願っています:)
解決:
<html-to-xml>
<http url="${link}" charset="utf-8"/>
</html-to-xml>
mactwixs <3 に感謝