DOCX、XLSX、および PPTX ファイルからすべての埋め込みファイル、画像、およびテキストをプログラムで抽出する必要があるアプリケーションを構築しています。DOCX ファイルを調べると、それらは単なる zip パッケージであることがわかります。パッケージのルートには、常に [Content_Types].xml というファイルがあります。このファイル内で、すべてのテキストを含む Document.xml ファイルの場所を見つけることができます。私が理解していることから、ファイルが常に同じ場所にあるとは限らないため、これが必要です。これは簡単ですが、すべての画像と埋め込みファイル (ワードまたは Ole コンテナー) の保存方法を指定しているドキュメントが見つかりません。
すべての埋め込みファイルが Embeddings ディレクトリに追加され、すべての画像が Media ディレクトリに追加されているように見えます。しかし、私は確かにそれを教えてくれるものを見つけることができません。また、アーカイブ内の xml ファイルには、保存されている画像やファイルの場所情報が表示されないため、それらは常にEmbeddings および Media ディレクトリにあると考えざるを得ません。
前述したように、DOCX、XLSX、および PPTX ファイルからすべての埋め込みファイル、画像、およびテキストを抽出する必要があります。Office がインストールされていないサーバーでこれを行う必要があります。誰かがすでにこれを行っていて、私を正しい方向に向けることができれば、私はそれを感謝します.
ありがとう、