私の Web サイトにコンテンツを送信するユーザーは Word を使用しているため、大量の Word ドキュメントを HTML に変換する必要があります。基本的な書式設定 (見出し、リスト、強調) のみを保存し、画像は保存したくありません。
それらを Libre Office の「HTML として保存」で変換すると、結果のファイルは巨大です。独自のスパンで!)。
私はこのスクリプトを試しました: http://www.techrepublic.com/blog/opensource/how-to-convert-doc-and-odf-files-to-clean-and-lean-html/3708 tidy と sed に基づいて、約 150K にサイズを縮小しましたが、まだ多くの役に立たない SPAN があります。
Kompozer (HTML エディター) にコピーして貼り付け、HTML として保存しようとしました。しかし、ラテン語以外 (ヘブライ語) のすべての文字を「⋅」などのエンティティに変換したため、サイズが 750K に増加しました。
私はdocvertを試しました:https://github.com/holloway/docvert/issues/6しかし、依存関係の無限のルートのように見える別のライブラリなどを必要とするpythonライブラリが必要であることがわかりました...
Office ドキュメントからきれいな HTML を作成する簡単な方法はありますか?