0

現在、Python-docx を使用して、.docx ファイル内のテキストを単一の文字列に変換しています。

f = open(os.path.expanduser("~/documents/myFile.docx"))

document = opendocx(f)

docString = ''.join(getdocumenttext(document))

次に、単純な組み込みの Python 分割メソッドを使用して文字列を解析しています。文字列がリストに解析されたら、そのリストを MySQL データベースにロードします。これはうまく機能しますが、私の唯一の問題は、特殊文字を保持したいということです。

データベースはこれらの特殊文字 (utf-8) をサポートしていますが、.docx を文字列に変換すると、多くの文字と書式 (斜体、太字など) が失われます。

.docx ファイルからの書式設定をそのままにして、テキストを解析およびロードできるようにしたいと考えています。

4

0 に答える 0