全て、
MSword ドキュメント (.docx) を読み取り、それを xml に変換する Python スクリプト (PyUno を使用) を変更しています。ここで必要なすべてを実行するスクリプトがありますが、doc から pdf に変換されます。xml の受け入れ可能なエクスポート形式のリストが見つかりません。
どんな助けでも大歓迎です。
ありがとう!
:bp:
全て、
MSword ドキュメント (.docx) を読み取り、それを xml に変換する Python スクリプト (PyUno を使用) を変更しています。ここで必要なすべてを実行するスクリプトがありますが、doc から pdf に変換されます。xml の受け入れ可能なエクスポート形式のリストが見つかりません。
どんな助けでも大歓迎です。
ありがとう!
:bp:
これら 2 つの FilterName 値は、異なるフラット XML 形式を生成します。
OpenDocument Text Flat XML
MS Word 2003 XML
これを行うことでこれらの名前を見つけました:
.odt と .docx も XML ベースの形式であり、フラットではなく圧縮されていることに注意してください。次のようにして、これらの形式のファイルを解析できます。
import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile
filepath = "in.odt" # or "in.docx"
tempDir = "path/to/temp/dir/" # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
zipper.extractall(tempDir)
try:
dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
# handle exception