HTMLページであるが、私が現在書き直している古いプログラムにデータと構造を提供するために、追加のxml要素(すべて会社名「TLA」で始まる)を含むファイルがたくさんあります。
フォームの例:
<html >
<head>
<title>Highly Simplified Example Form</title>
</head>
<body>
<TLA:document xmlns:TLA="http://www.tla.com">
<TLA:contexts>
<TLA:context id="id_1" value=""></TLA:context>
</TLA:contexts>
<TLA:page>
<TLA:question id="q_id_1">
<table>
<tr>
<td>
<input id="input_id_1" type="text" />
</td>
</tr>
</table>
</TLA:question>
</TLA:page>
<!-- Repeat many times -->
</TLA:document>
</body>
</html>
私の仕事は、HTML 要素のみをコピーし、その属性とコンテンツを新しいファイルに追加するプリプロセッサを作成することです。
このような:
<html >
<head>
<title>Highly Simplified Example Form</title>
</head>
<body>
<table>
<tr>
<td>
<input id="input_id_1" type="text" />
</td>
</tr>
</table>
<!-- Repeat many times -->
</body>
</html>
別のファイルの TLA 要素を抽出するために必要だったので、XSLT を使用するアプローチを取りました。これまでのところ、これは私が持っているXSLTです:
<?xml version="1.0" encoding="utf-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:msxsl="urn:schemas-microsoft-com:xslt" exclude-result-prefixes="msxsl"
xmlns:mbl="http://www.mbl.com">
<xsl:output method="xml" indent="yes"/>
<xsl:strip-space elements="*" />
<xsl:template match="mbl:* | mbl:*/@* | mbl:*/text()"/>
<xsl:template match="@*|node()">
<xsl:copy>
<xsl:apply-templates select="@*|node()"/>
</xsl:copy>
</xsl:template>
</xsl:stylesheet>
ただし、これは次のもののみを生成します。
<html >
<head>
<title>Highly Simplified Example Form</title>
</head>
<body>
</body>
</html>
ご覧のとおり、TLA:document 要素内のすべてが除外されています。すべての html を取得して TLA 要素を除外するには、XSLT で何を変更する必要がありますか?
あるいは、これについてもっと簡単な方法はありますか?ほぼすべてのブラウザーが TLA 要素を無視することはわかっていますが、HTML ツールまたはアプリを使用して必要なものを取得する方法はありますか?