問題タブ [document-conversion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ドキュメントを PDF 形式に変換する効率的な方法
doc、docx、ppt、pptx などのドキュメントを pdf に変換する効率的な方法を見つけようとしています。これまでのところ、 docsplitとを試しましたが、どちらもサイズが 1.7MBのpptx ファイルoowriter
のジョブを完了するのに 10 秒以上かかりました。私のアプローチを改善するためのより良い方法や提案を誰かが私に提案できますか?
私が試したこと:
出力:
環境:
- Linux - Ubuntu 12.04
- パイソン 2.7.3
その他のツールの結果:
- jodconverterは 11.32 秒かかりました
java - PDF ファイルを docx ファイルに変換した後にフォーマットが失われる
次のコード スニペットを使用して、次のコードを使用して PDF ファイルを MS Word ドキュメントに変換しています。
ただし、結果のドキュメントではすべての書式設定が失われます。元のテキストの書式を保持する方法を誰かに教えてもらえますか?
libreoffice - Libreoffice の変換先が機能しない
ドキュメントをhtml、txtからpdf、odtに、またはその逆に変換しようとしています..しかし、odtからpdfのみが機能するようです..他のファイル形式は変換されません
これが私のコマンドです
php - HTML から PDF および DOCX への変換に最適な PHP API またはライブラリはどれですか?
まず、Cloudconvert を使ってみました。非常に多くのファイルタイプ間で変換できますが、その PHP API はほとんど常にメモリ リークを引き起こします。
2 番目に試したのは Pdfcrowd です。完全に機能しますが、HTML のみを PDF に変換できます。
私が試した3番目はPdfaidでした。それも完全に機能しますが、PDF のみを DOCX に変換できます。
ただし、2 番目と 3 番目には変換制限があり (Pdfaid では API キーごとに 20 変換しかありません)、料金を支払うことで延長できます。
他の PHP API やライブラリを使用した経験はありますか?
image - 大量の .pdf を .html または .doc に変換する
コード スニペット、または大量 (数千) の .pdf を .html または .doc に同時に変換できるその他のソリューションを探しています。
- 見出しの階層構造を維持する
- ドキュメント内の画像をキャプチャし、それらを画像サーバーにアップロードして絶対リンクを作成し、表の書式を維持します。
そのようなツールは存在しますか?存在する場合、誰がそれを作成しますか? そうでない場合、私がつながることができる分野の思想的リーダーは誰ですか?
perl - perl スクリプトから unoconv を呼び出すときのデバイスの不適切な ioctl
指定したドメイン宛ての電子メールを受信するたびに、postfix 電子メール サーバーから perl スクリプトをトリガーしています。perl スクリプトは基本的にすべての添付ファイルを抽出し、unoconv を呼び出して添付ファイルを PDF 形式に変換します。
私は現在、同じ添付ファイルを持つ常に同じ電子メールでスクリプトをテストしていますが、ランダムな動作が見られます。次のような unoconv コマンドを呼び出すと、すべての添付ファイルが変換されることがあります。
いくつかのレース状態の問題または類似のように見えます。何が問題になる可能性がありますか?
更新:問題は、unoconv が浮動小数点例外で終了することがあるようですが、ドキュメントは正常に変換されました (PDF ビューアーで開くことができます)。エラーが表示される関数のコードを次に示します。このような場合、どのように手続きを進めるかが今問題になっています。
pdf - unoconv を使用して奇妙な文字の翻訳を取得し、docx/doc から pdf に変換する
unoconv ( https://github.com/dagwieers/unoconv ) を使用して DOCX および DOC ファイルを PDF に変換していますが、特定の文字を PDF にレンダリングすると、奇妙な結果になることがよくあります。
特定の問題の 1 つは、数値が奇妙に変換されることです。たとえば、次のセクション ラベルです。
セクション 2.3 ( http://note.io/1Q33RX6 )
Get をローマ数字に変換します。
セクション II.3 ( http://note.io/1b6MDs5 )
これはインストールされた文字セットに関係しているように感じますが、デバッグする方法がわかりません。
この問題の設定は、ディスク上のドキュメントを変換するために UNIX シェル スクリプトを呼び出す Django アプリです。