拡張子が docx の Word 文書からデータを抽出したいと考えています。この文書には表が含まれています。テーブルの各列と行からデータを取得したい。
次に、データを処理して、それぞれのフィールドの下にある Excel ファイルに挿入したいと思います。
Pythonでこれを行う方法を教えてください。
Windows 7 で python3 を使用しています (Windows サーバー 2003 でもこのコードを実行したい場合があります)。
どんな助けでも大歓迎です。
ありがとう
拡張子が docx の Word 文書からデータを抽出したいと考えています。この文書には表が含まれています。テーブルの各列と行からデータを取得したい。
次に、データを処理して、それぞれのフィールドの下にある Excel ファイルに挿入したいと思います。
Pythonでこれを行う方法を教えてください。
Windows 7 で python3 を使用しています (Windows サーバー 2003 でもこのコードを実行したい場合があります)。
どんな助けでも大歓迎です。
ありがとう
次のようなものを試してください:
import win32com.client as w32c
Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
table=tables[t_cnt]
for r_cnt in range(table.Rows.Count):
row=table.Rows[r_cnt]
for c_cnt in range(row.Cells.Count):
cell=row.Cells[c_cnt]
print(cell.Range.Text)
Word 文書で ALT+F11 および F2 を押すと、VBA オブジェクトが表示されます... Perl では、上記の手順はより適切に文書化されています。
Excel への読み書きは、Python3 のパッケージ xlrd3 および xlwt3 で十分にサポートされています。