このウェブサイトからデータを抽出しています。Web サイトと同じ文字セットである xml に UTF-8 を使用しているため、データが正しくエンコードされない理由がよくわかりません。
たとえば、このページAstrit Ajdarevićから、代わりにAstrit Ajdarević、およびStandard Liège代わりにStandard Liège...
詳細:どのように抽出しますか?
さて、私はそれを解析する前にHTMLページを有効なxmlに変換するWebHarvestを使用しています。
したがって、上記の例では、//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()getAstrit Ajdarevićと//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]get Standard Liège...を使用します。
これがあなたの質問に答えてくれることを願っています:)
解決:
<html-to-xml>
<http url="${link}" charset="utf-8"/>
</html-to-xml>
mactwixs <3 に感謝