2

全て、

MSword ドキュメント (.docx) を読み取り、それを xml に変換する Python スクリプト (PyUno を使用) を変更しています。ここで必要なすべてを実行するスクリプトがありますが、doc から pdf に変換されます。xml の受け入れ可能なエクスポート形式のリストが見つかりません。

どんな助けでも大歓迎です。

ありがとう!

:bp:

4

1 に答える 1

0

これら 2 つの FilterName 値は、異なるフラット XML 形式を生成します。

  • OpenDocument Text Flat XML
  • MS Word 2003 XML

これを行うことでこれらの名前を見つけました:

  1. [ツール] -> [オプション] -> [詳細設定] に移動してマクロの記録を有効にし、[マクロの記録を有効にする] をオンにします。
  2. ツール -> マクロ -> マクロの記録。
  3. ファイル -> 名前を付けて保存。タイプのさまざまなオプションを選択しました。
  4. マクロに名前を付け、結果の Basic コードの FilterName プロパティをチェックしました。

.odt と .docx も XML ベースの形式であり、フラットではなく圧縮されていることに注意してください。次のようにして、これらの形式のファイルを解析できます。

import os
import xml.dom.minidom
import xml.parsers.expat
import zipfile

filepath = "in.odt"  # or "in.docx"
tempDir = "path/to/temp/dir/"  # change according to your system
with zipfile.ZipFile(filepath, 'r') as zipper:
    zipper.extractall(tempDir)
try:
    dom = xml.dom.minidom.parse(os.path.join(tempDir, "content.xml"))
except xml.parsers.expat.ExpatError:
    # handle exception
于 2016-01-06T02:36:06.223 に答える