c++ - Xerces-C: HTML 内の Javascript を解析する

翻译自：https://stackoverflow.com/questions/8544344 2011-12-17T11:18:56.717

471 次

ウェブサイトのメタタグを解析したい。これには xerces-c を使用します。

shared_ptr<SAX2XMLReader> parser(XMLReaderFactory::createXMLReader());

//Create and set callback handler with the given callback functions
Handler handler(startElement,endElement,characters);
parser->setContentHandler(&handler);
parser->setErrorHandler(&handler);

//Parse the file with the given callback handler
parser->parse(filename.c_str());

一部の Web サイトでは、JavaScript が使用されています。スクリプトタグ内では、javascript は演算子 && を使用して論理積を表します。

Xerces-C はこれをエンティティ参照 ( など) として解釈し、エンティティ参照 && がわからないため、例外をスローします。

これをテキストとして正しく読む方法はありますか？

またはそうでない場合 - スクリプトタグ内のすべての文字を無視する方法はありますか? とにかく私はそれらを必要としません。メタタグを解析したいだけです。

c++ - Xerces-C: HTML 内の Javascript を解析する

1 に答える 1

Related

Reference