1

doc/docx ドキュメントをセマンティック HTML に変換したいと考えています。

いくつかの希望/要件:

  1. ドキュメント内のヘッダーが <h1>、<h2> など、表が <table> などのセマンティック HTML。

  2. できれば、見出し、リスト、表、および画像を処理できる必要があります。グラフと数学の公式は素晴らしい追加機能です。

• doc/docx から html に直接変換する必要はなく、xml や docbook などの中間形式を使用できます。

• プログラム的に、多数のドキュメントで動作する必要があります。

これまでに見つけた解決策に最も近いのはhttp://holloway.co.nz/docvert/index.htmlですが、残念ながらいくつかのバグがあり、ユーザーベースが小さく、多くのことを処理できません。ドキュメント。概念実証の詳細。

4

5 に答える 5

2

" ドキュメントのヘッダーは " これは不可能だと思います。<p> MS Word は、紙に印刷されたテキストのようにさまざまなスタイルで結果を書き留めるだけなので、元の情報は記録されません。

あなたの他の希望に近づくことができます。これを行うことができる商用ツールが 2 つあります (これらの無料ツールやオンライン ツールを信じないでください。実際の作業は行いません)。

1 Zapadoo www.zapadoo.com の Word クリーナー 2 wonder Studio www.htmlcleaner.com
の Word 用 HTML クリーナー

昨年リリースされたばかりの2番目のものが好きです。どちらも試すことができます。

于 2010-03-16T09:20:55.147 に答える
1

画像、グラフ、数式を除いて、リストした要件を実装するユーティリティを作成しました。これはベータ品質です(つまり、私のマシンで動作します)。http://www.modeltext.com/wordで公開しました

于 2009-08-26T19:42:06.880 に答える
1

Word 文書を XML に変換できるupCastというツールがあります。

于 2009-08-26T19:10:19.673 に答える
1

docx4j (doc ではなく docx のみ) は、きれいな HTML 出力を書き込みます。<p class="h1"> の代わりに <h1> が必要な場合は、少し変更する必要がありますが、オープンソースであるため、それを行うことができます。

于 2010-09-29T22:11:09.583 に答える
0

ちょうどより多くのアイデア。

Gmail を使用して Word ドキュメントを変換する

http://www.oreillynet.com/mac/blog/2006/05/use_gmail_to_convert_word_docs.html

于 2011-01-17T02:53:49.963 に答える