HTML の中間ステップで DOCX を DITA トピックに変換しようとしています。
これで、「sed」、「emacs」、または「vi」のいずれかで単純な置換を行うだけで、ほとんどの変更を行うことができますが、特定のタイプではできません。そのためには、Perl または Python が必要になる場合があります。以下は、私が達成しようとしていることの例です。
から:
<h1> Head 1 </H1>
<body>
</body>
<h2>Sub Head 1 </h2>
<body>
</body>
<h3>SubSub Head 1 </h3>
<body>
</body>
<h2>Sub Head 2 </h2>
<body>
</body>
<h1>Head 2 </h1>
<body>
</body>
に:
<topic><title> Head 1 </title>
<body>
</body>
<topic><title> Sub Head 1 </title>
<body>
</body>
<topic><title> SubSub Head 1 </title>
<body>
</body>
</topic>
</topic>
<topic><title> Sub Head 2 </title>
<body>
</body>
</topic>
</topic>
<topic><title> Head 2 </title>
<body>
</body>
</topic>
私が問題を抱えている部分は、ネストされたトピックのタグを配置する必要がある部分です (もちろん、ネストされたトピックがあります。既存のドキュメントを移行しているので、私のニーズはやや独特です)。誰かがこれ (タグごとのタグの配置) のための perl スニペット (または同様のものへのポインター) を提案できる場合は、それを基にスクリプトを作成できます。
ご覧いただき、ご提案いただきありがとうございます。