xml - XML とアクセント付き文字

Question

このウェブサイトからデータを抽出しています。Web サイトと同じ文字セットである xml に UTF-8 を使用しているため、データが正しくエンコードされない理由がよくわかりません。

たとえば、このページAstrit AjdareviÄから、代わりにAstrit Ajdarević、およびStandard LiÃ¨ge代わりにStandard Liège...

詳細:どのように抽出しますか?

さて、私はそれを解析する前にHTMLページを有効なxmlに変換するWebHarvestを使用しています。

したがって、上記の例では、//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()getAstrit AjdareviÄと//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]get Standard LiÃ¨ge...を使用します。

これがあなたの質問に答えてくれることを願っています:)

解決：

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

mactwixs <3 に感謝

score 2 · Accepted Answer

おそらく、Web-Harvest Config ファイルでデフォルトとして UTF-8 を設定する必要があります。そうしないと、デフォルトとして設定されません。また、最新バージョンの Web-Harvest (2.1) があることを確認してください。

以下を参照してください。

手動 - 構成

手動 - HTTP 設定

同様のサポートリクエスト

ブラウザが解決する HTML には、以下も必要です。

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

それでもうまくいかない場合は、sourceforge でサポートリクエストを提出することをお勧めします。

xml - XML とアクセント付き文字

1 に答える 1

Related

Reference