多くの .xml ファイルを扱っています。(数百万 - ウィキペディアの .xml 形式のダンプ) そして、それらは私が想像していたよりもはるかに読みにくいものです。
とりあえず、ブラウザで読めるように表示する.cssファイルを書き、この.cssへの参照をすべてのファイルにプラグインするスクリプトを書きました。
(XSLTのような他の解決策があることは知っていますが、見つけたすべての情報は、ドキュメントレベルに適合しないように見えました-可能であれば、これらのファイルのサイズを拡大しないようにしています)
一部のファイルでは.css が正常に機能しますが、多くのファイルには などのエンティティが含まれており、次のようなエラーが発生します。
「XML 解析エラー: 未定義のエンティティ」 を指す素敵な小さなイラストまたは引用符内の親族です。
ブラウザのドット (キーワード -> Unicode) を接続する必要があるように見える article.dtd ファイルがあります。次のように各ファイルで参照されます。
<!DOCTYPE article SYSTEM "../article.dtd">
次のような多くのエントリが含まれています。
<!ENTITY nbsp " "> <!-- no-break space = non-breaking space,
U+00A0 ISOnum -->
しかし、このファイルの目的を完全に誤解しているか、正しく機能していません。
いかなる場合でも; これらのドキュメントを表示するにはどうすればよいですか。次のいずれかによって:
- エンティティの表示 (「&nbSp」などのプレーンテキスト)
- エンティティを完全に削除します(実際のファイルでの線形検索/削除以外の方法で)
- 意図したとおりに、エンティティを Unicode として解釈する
当然、後者が好ましい。絶対に理想的には、ID を Unicode にマップするある種の外部ファイルを参照することによって (それが article.dtd ファイルの目的ではない場合....)
編集: ここでは強力なマシンを使用していません..rars の抽出には数日かかりました。各ファイルの編集には、非常に長い時間がかかります。