現在、Python-docx を使用して、.docx ファイル内のテキストを単一の文字列に変換しています。
f = open(os.path.expanduser("~/documents/myFile.docx"))
document = opendocx(f)
docString = ''.join(getdocumenttext(document))
次に、単純な組み込みの Python 分割メソッドを使用して文字列を解析しています。文字列がリストに解析されたら、そのリストを MySQL データベースにロードします。これはうまく機能しますが、私の唯一の問題は、特殊文字を保持したいということです。
データベースはこれらの特殊文字 (utf-8) をサポートしていますが、.docx を文字列に変換すると、多くの文字と書式 (斜体、太字など) が失われます。
.docx ファイルからの書式設定をそのままにして、テキストを解析およびロードできるようにしたいと考えています。