doc/docx ドキュメントをセマンティック HTML に変換したいと考えています。
いくつかの希望/要件:
ドキュメント内のヘッダーが <h1>、<h2> など、表が <table> などのセマンティック HTML。
できれば、見出し、リスト、表、および画像を処理できる必要があります。グラフと数学の公式は素晴らしい追加機能です。
• doc/docx から html に直接変換する必要はなく、xml や docbook などの中間形式を使用できます。
• プログラム的に、多数のドキュメントで動作する必要があります。
これまでに見つけた解決策に最も近いのはhttp://holloway.co.nz/docvert/index.htmlですが、残念ながらいくつかのバグがあり、ユーザーベースが小さく、多くのことを処理できません。ドキュメント。概念実証の詳細。