1

このウェブサイトからデータを抽出しています。Web サイトと同じ文字セットである xml に UTF-8 を使用しているため、データが正しくエンコードされない理由がよくわかりません。

たとえば、このページAstrit Ajdarevićから、代わりにAstrit Ajdarević、およびStandard Liège代わりにStandard Liège...

詳細:どのように抽出しますか?

さて、私はそれを解析する前にHTMLページを有効なxmlに変換するWebHarvestを使用しています。

したがって、上記の例では、//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()getAstrit Ajdarević//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]get Standard Liège...を使用します。

これがあなたの質問に答えてくれることを願っています:)


解決:

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

mactwixs <3 に感謝

4

1 に答える 1

2

おそらく、Web-Harvest Config ファイルでデフォルトとして UTF-8 を設定する必要があります。そうしないと、デフォルトとして設定されません。また、最新バージョンの Web-Harvest (2.1) があることを確認してください。

以下を参照してください。

手動 - 構成

手動 - HTTP 設定

同様のサポート リクエスト

ブラウザが解決する HTML には、以下も必要です。

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

それでもうまくいかない場合は、sourceforge でサポート リクエストを提出することをお勧めします。

于 2012-09-18T07:59:50.187 に答える