Word 2007 .docx ドキュメントがあります。最後に拡張子「.zip」を追加してzipファイルを作成しました。zipファイルを解凍すると、xmlファイルが含まれるフォルダーがいくつか表示されました。そのためのxslスタイルシートを作成するために、フォルダーにあるすべてのxmlファイルを組み合わせて単一のxmlシートを取得したいと考えています。「.docx」ファイルを開いて「xml として保存」しようとしたくありません。それを行う方法はありますか?または、少なくともそのドキュメントの WordML ファイルを入手できますか? もしそうならどのように。前もって感謝します。
1 に答える
解凍、ディレクトリツリーウォーキング、および行ベースのテキストファイル処理をサポートする任意のツール(セット)を使用します。アーカイブのディレクトリ構造を維持しながら、最初にワードファイルを解凍します。次に、解凍したディレクトリでディレクトリウォーカーを起動し、すべてのファイル.xml
と.rels
ファイルを処理します。それらのそれぞれから最初の行(たとえば、xml宣言を含む<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
)を削除し、それぞれをグローバル出力xmlファイルに連結します。このファイルの最初の行にはxml宣言自体が含まれている必要があります。ツールがxmlファイルの文字セットエンコーディング(utf-8である必要があります)を尊重していることを確認してください。
PerlパッケージのFile::FindとArchive::Zipはこのタスクに便利ですが、標準のcliツール(zip / unzip、find、cat、sed)で作業を完了できます。
IDの衝突を避けるためRelationships
に、ファイルのトップレベル要素をいくつかの合成識別属性で補完する必要がある場合があります-ほとんどの関係エントリの適用性は、属性を指定すると一意である必要がありますが、ms仕様は、オフィス自体がすべてにわたって一意のIDを保証するかどうかについて少し曖昧に見えます同じ種類の関係アイテム(または私は仕様を十分に読んでいません...)。関連する非xmlファイル(グラフィック、vbaコード)の名前がリレーションシップファイルに表示されることに注意してください。.rels
Type
[Content_Types].xml
(まだ)助けてくれることを願っています