Java で RESTful Web サービスを作成しています。アイデアは、XML ドキュメントを「削減」し、不要なコンテンツ (~98%) をすべて取り除き、関心のあるタグのみを残しながら、ドキュメントの構造を維持することです。機密保持のための XML コンテンツ):
<sear:SEGMENTS xmlns="http://www.exlibrisgroup.com/xsd/primo/primo_nm_bib" xmlns:sear="http://www.exlibrisgroup.com/xsd/jaguar/search">
<sear:JAGROOT>
<sear:RESULT>
<sear:DOCSET IS_LOCAL="true" TOTAL_TIME="176" LASTHIT="9" FIRSTHIT="0" TOTALHITS="262" HIT_TIME="11">
<sear:DOC SEARCH_ENGINE_TYPE="Local Search Engine" SEARCH_ENGINE="Local Search Engine" NO="1" RANK="0.086826384" ID="2347460">
[
<PrimoNMBib>
<record>
<display>
<title></title>
</display>
<sort>
<author></author>
</sort>
</record>
</PrimoNMBib>
]
</sear:DOC>
</sear:DOCSET>
</sear:RESULT>
</sear:JAGROOT>
</sear:SEGMENTS>
もちろん、これは関心のあるタグのみの構造です。他にも何百ものタグがありますが、それらは無関係です。
角かっこ ( []
) は XML の一部ではなく、要素<PrimoNMBib></PrimoNMBib>
が子のリストの要素であり、複数回出現することを示します (RESTFUL サービスからの検索の一致ごとに 1 回)。
上記の構造のセグメントのみを値とともに残し、他のタグを含むタグ間の他のすべてを削除<title>
し<author>
ながら、正規表現を使用してドキュメントを解析しようとしましたが、取得できませんそれは私の人生のために働くために...
以前は XSLT を使用して試してみましたが、未解決の理由でうまくいきませんでした... XSLT の実装については既に質問しました...
とにかく、正規表現とJavaを使用してこの問題を解決する方法として、ヒント/ヒント/解決策をいただければ幸いです...