0

任意の形式を HTML との間で変換したいと考えています。

DOC、DOCX、PDF、ODT、RDF、DocBook、および TXT をサポートしたいと考えています。

フォーマットからフォーマットへの変換ユーティリティは数多くありますが、実装の便宜上、単一のツールが最適です。これにより、ベンダーまたはオープンソース プロジェクトがライブラリを拡張する際に、新しい形式を追加することも容易になります。

理想的な「ハブ」形式は HTML ですが、別のハブ形式を使用することもできます。

サーバー側で実行するには、Java ライブラリ、あるいは C/C++ ライブラリ、COM、またはコマンドライン ツールを使用することをお勧めします。ただし、プリンター ドライバー、オンライン サービス、または GUI ツールではありません。商用およびオープン ソースは問題ありません。

4

4 に答える 4

10

OpenOffice.org

このリンクから:

OpenOffice.org のあまり知られていない機能の 1 つは、サービスとして実行できることです。その能力を賢く使うことができます。たとえば、OpenOffice.og を変換エンジンに変えて、それを使用して、Web ベースのインターフェイスまたはコマンド ライン ツールを介してドキュメントをある形式から別の形式に変換できます。JODConverter は、OpenOffice.org のファイル変換機能を解放するのに役立ちます。

これはあなたが探しているもののように聞こえます。それもすべてJavaです。

このリンクは、上記のJODConverterについてもう少し詳しく説明しています。

于 2009-01-12T12:24:53.343 に答える
1

特定の変換を合理的に行うのはかなり難しいため、そのようなユーティリティ/コンバーターが既に存在するとは思いません。たとえば、HTML から TXT から HTML への変換をどのように処理しますか? 何を剥がしますか?さまざまな HTML 要素をプレーン テキストでどのように表現しますか? さらに、DOCX に変換されてから XHTML に変換された TXT 内の XML のようなコンテンツ内のコンテンツをどのように処理しますか?

とはいえ、このような目的でコンバーターを作るとしたら、まずOffice ドキュメントを扱うためのライブラリであるApache POIから始めます。次に、PDF 接続にiTextを使用し、[Office フォーマット] <-> PDF 変換が必要なだけ堅牢に機能することを確認してから、XML 処理用にJDOMを追加し、[Office フォーマット] <-> をテストします。 XML と PDF <-> XML は私が望むように機能します。その時点で車輪を再発明する可能性が非常に高いため、ファイルタイプハンドラーを自分で実装することは特に避けます。

于 2009-01-12T12:24:31.347 に答える
1

これは重要な問題です。たとえば、私は先月、PHP で堅牢な HTML+CSS から PDF への変換を探していましたが、(その質問から) Prince XML 、私の最初のテストでは、優れた製品であることが示されました. ただし、高価です。

于 2009-01-12T12:38:54.687 に答える
1

フリーマーカーをご覧ください

XML を「ハブ」形式として提案し、スタイル情報を XSLT に分離します。

于 2009-01-12T12:38:57.247 に答える