私のコードでは、openoffice を使用してスタイル付きの xls ドキュメントを html に変換しています。次に、を使用してテーブルを解析しxml_parser_create
ます。問題は、openoffice が unclosed<BR>
と<HR>
タグを含む oldschool html を作成し、doctypes を作成せず、属性を引用しないことです<TABLE WIDTH=4>
。
私が知っている php パーサーはこれを好まず、xml フォーマット エラーを生成します。私の現在の解決策は、ファイルを解析する前にファイルに対していくつかの正規表現を実行することですが、これはうまくも速くもありません。
この種の間違いを気にしない (できれば含まれている) php-parser を知っていますか? それとも、「壊れた」html を修正する簡単な方法でしょうか?