java - アポストロフィを使用した XML の解析

Question

BBC ニュースの RSS フィードを例にとると、そのニュース項目の 1 つが次のとおりです。

<item><title>Pupils 'bullied on sports field'</title><description>bla bla..

これを解析するJavaコードがいくつかありますが、タイトルにアポストロフィが含まれている場合(上記のように)、解析が停止するため、次のタイトルになります: . 完全なタイトルを解析するにはどうすればよいですか? 以下は、情報を解析する for ループ内のコードの一部です。

                    NodeList title = element.getElementsByTagName("title");
                    Element line = (Element) title.item(0);
                    tmp.setTitle(getCharacterDataFromElement(line).toString());

まったく同じコードを使用して、description や pubDate などの他の要素を解析しますが、これらはすべて問題ありません。

これは getCharacterDataFromElement メソッドです。

public static String getCharacterDataFromElement(Element e) {
    Node child = ((Node) e).getFirstChild();
    if (child instanceof CharacterData) {
        CharacterData cd = (CharacterData) child;
        return cd.getData();
    }
    return "";
}

私は何を間違っていますか？DocumentBuilder、DocumentBuilderFactory、および org.w3c.dom を使用して、RSS フィードを操作します。

score 2 · Accepted Answer

getCharacterDataFromElement は最初の子のみを調べます - さらに子要素があるかどうかを確認し、すべてのテキストを一緒にタックします

HTH - DF

score 0 · Accepted Answer

davidfrancis が示唆したように、内のすべての子に対して反復処理を行う必要がありますgetCharacterDataFromElement()。

または、DOM レベル 3 を使用できる場合は、代わりにNode.getTextContent()メソッドを使用できます。

NodeList title = element.getElementsByTagName("title");
Element line = (Element)title.item(0);
tmp.setTitle(line.getTextContent());

score -1 · Accepted Answer

私の知る限り、アポストロフィは XML の予約文字であるため、としてエンコードする必要があります'。

これは、BBC ニュースの RSS フィードが整形式の XML を提供していないことを意味します。

最善の方法は、バグレポートを BBC ニュース RSS フィードプロバイダーに発行して、修正してもらうことです。

java - アポストロフィを使用した XML の解析

3 に答える 3

Related

Reference