1

DOCX、XLSX、および PPTX ファイルからすべての埋め込みファイル、画像、およびテキストをプログラムで抽出する必要があるアプリケーションを構築しています。DOCX ファイルを調べると、それらは単なる zip パッケージであることがわかります。パッケージのルートには、常に [Content_Types].xml というファイルがあります。このファイル内で、すべてのテキストを含む Document.xml ファイルの場所を見つけることができます。私が理解していることから、ファイルが常に同じ場所にあるとは限らないため、これが必要です。これは簡単ですが、すべての画像と埋め込みファイル (ワードまたは Ole コンテナー) の保存方法を指定しているドキュメントが見つかりません。

すべての埋め込みファイルが Embeddings ディレクトリに追加され、すべての画像が Media ディレクトリに追加されているように見えます。しかし、私は確かにそれを教えてくれるものを見つけることができません。また、アーカイブ内の xml ファイルには、保存されている画像やファイルの場所情報が表示されないため、それらは常にEmbeddings および Media ディレクトリにあると考えざるを得ません。

前述したように、DOCX、XLSX、および PPTX ファイルからすべての埋め込みファイル、画像、およびテキストを抽出する必要があります。Office がインストールされていないサーバーでこれを行う必要があります。誰かがすでにこれを行っていて、私を正しい方向に向けることができれば、私はそれを感謝します.

ありがとう、

4

1 に答える 1

0

Microsoft には、「Open XML SDK」と呼ばれる XML オフィス ドキュメントを処理するための SDK があり、サーバーでもサポートされています。

自分で試したことはありませんが、zip ファイルや ISO ドキュメントを自分で処理せずに、埋め込みオブジェクトなどの要素を抽出するための API が含まれていると思われます。ファイル構造は時間の経過とともに変化する可能性があるため、これもより安全です。

ケマル

于 2011-12-25T00:48:38.477 に答える