0

Web-Harvestを使用してWebサイトをスクラップし、データを含むxmlファイルを生成しています。

のような醜いノードが<name> </name>あり、normalize-space()を使用しても役に立たなかったので、ファイルを16進ビューで開いたところ、「c2a0」に対応していることがわかりました。私は解決策を探しましたが、誰も助けませんでした...

要約すると、私が欲しいのは、その奇妙なスペースを(xqueryまたはxpath1 / 2を使用して)削除して、空のノードを取得できるようにすることです<name/>

ps:使用されるエンコーディングは「iso-8859-1」です

4

1 に答える 1

1

translate特定の文字を削除するために使用できます。また、utf8c2a0は文字U+ 00A0、16進数の0xA0は160であるためcodepoints-to-string(160)、スペースを含む文字列を取得するために使用できます。

一緒:

translate(your node text, codepoints-to-string(160), "")
于 2012-08-01T12:43:49.643 に答える