以下の要件を満たす/超える既知のソリューションはありますか?
- 複数の非グラフィック ドキュメント フォーマットと HTML との間の変換 (例: doc<->HTML、pdf<->html、odt<->html など)
- コマンドラインまたは API (Java API が望ましい)
- クロスプラットフォーム
- 商用またはオープンソース
以下の要件を満たす/超える既知のソリューションはありますか?
OpenOffice には、サポートされているさまざまな形式間の変換をサポートする豊富な API があります。この質問をチェックしてください。JODConverterを使用することをお勧めします。
DocBookを使用すると、さまざまな出力形式にエクスポートできますが、元に戻すのは常に困難です。PDFの場合、iTextを試すことができます
私 (1 つの Tex/LaTeX -> HTML および ASCII テキストと RTF コンバーターでオールインワンを書いた) は、これはかなりの仕事になると思います。
これに関する問題は、これらのさまざまな「ドキュメント」形式がかなり異なる目的を意図していることです。実際、これらの形式のいくつかの間にはそのような変換ツールがありますが、「ドキュメント」の構造、意味、および実装には概念的な不一致がしばしばあり、1 つの形式でサポートされている機能を互いにハックするためにトレードオフする必要があることが非常によくあります。別の許容可能な出力。たとえば、PDF はプレゼンテーション、正確な配置、およびフォントのサポートに非常に優れていますが、HTML は構造に関心があり、これらのことは実質的に考慮されていません (CSS なし)。
通常誰かが単純に変換プログラムを必要としているときに、そのような API がどのように使用されることを想定していますか?