問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
416 参照

python - サブプロセスは何も出力していません

Python を使用して pdftotext を実行しようとしていますが、何らかの理由でコードが機能しません。以下を実行すると、 content 変数に PDF のコンテンツが含まれると予想されますが、得られる結果は単なる空の文字列です。

私が欠けているものを誰か知っていますか?

0 投票する
2 に答える
4078 参照

php - PDFページからZend_Pdfを使用してテキストを抽出する方法

PDFのページからテキストを抽出するのを手伝ってくれる人はいますか?

ページメソッドが存在すると思いますが、コンテンツを抽出できるものが見つかりませんでした。

例: $page->getContents(); $page->toString(); $page->extractText();

...ヘルプ!!!!これは私を夢中にさせています!

0 投票する
1 に答える
1868 参照

python - pdftotextは、Pythonスクリプト内で呼び出されたときに、変換するファイルを見つけることができません

私はクラッシュし続けるPythonスクリプトを持っています:

エラーは次のとおりです。

ファイル名への絶対パス(デバッグ時にログファイルに保存しています)は問題ありません。コマンドラインで入力pdftotext <pdf_filename_goes_here>すると、悪意のあるファイル名のいずれに対しても機能します。subprocessしかし、Pythonで使用して呼び出されると、エラーが発生し続けます。

何が起こっている???

また、Pythonインタープリターを試してみましたが、うまくいきました。

更新:それをみんなに知らせるために、私も試しました:

これも同じエラーを出しました。iveは/usr/bin/pdftotext test.pdf直接使用され、機能したので、それがpdftotext実行可能ファイルへの正しいパスであることがわかります。他に何か提案はありますか?

0 投票する
1 に答える
1264 参照

ruby-on-rails - Ruby PDF:pdftotextを使用したツールキット

RubyプロジェクトでPDFファイルを変換しています。私はこれにpdfツールキットgemを使用しています。

ドキュメントには、pdftotext pdftotext(file、outfile = nil、&block)の使用方法が示されています。

私のプロジェクトでは、引数なしでPDFファイルを変換しており、これを行うことができます:PDF :: Toolkit.pdftotext( "file.pdf"、 "file.txt)

コマンドラインから実行すると、そのparam pdftotext-layoutfile.pdfを渡すことでレイアウトを保持できます。

PDF :: Toolkitでこれを達成するための正しい構文は何ですか?

ありがとう!

0 投票する
7 に答える
65027 参照

linux - Linux 用の CLI pdf ビューア

ねえ、かなり前から、コマンド ライン用の PDF ビューアーを探しています。

私は Linux で X なしで作業するのが好きで、リモート マシンで作業することが多いので、pdf を読み取るためのツールが必要です。仕事をするための非常に優れたグラフィカルプログラム(evince、okular、acroreadなど)がかなりあるので、少なくとも1つの適切なテキストモードツールが必要だと考えました。しかし、私はくだらないものさえ知りません!

現在、私は PDF を読むためだけに X を起動するか、pdftohtml+lynx を使用しています。ただし、後者はあまり良い出力を生成せず、特に数式が含まれている場合、ほとんどのドキュメントは判読できません。

Google には、不可能だと言っている人や、pdftohtml バージョンを提案している人がたくさんいます。

これは正確にはプログラミングの問題ではないことは理解していますが、現在、そのようなプログラムを実装するプロジェクトを開始することを検討しています。

提案をありがとう。

0 投票する
1 に答える
295 参照

c# - pdfcreator を使用して、pdf などの画像のデータを処理する

ヘイ、みんな。多分あなたたちは私のプロジェクトで私を助けることができます. 仮想プリンターとしてpdfcreatorを使用して、いくつかの画像をファイルに印刷しています。任意のタイプの画像にすることができます。しかし、そこからデータを抽出する必要があります。それはできますか?私はC#を使用しています。

0 投票する
5 に答える
2128 参照

ruby - 大きなPDFファイルを解析する方法

表だけを含む一連のページを含む非常に大きなPDFファイル(200,000 KB以上)があります。どういうわけかRubyを使用してこの情報を解析し、結果のデータをMySQLデータベースにインポートしたいと思います。

PDFからこのデータを引き出す方法を知っている人はいますか?データは次のようにフォーマットされます。

名前| 住所| 報告された現金| 報告された年| ホルダーネーム

[名前]フィールドがアドレスフィールドにオーバーフローすることがあります。その場合、残りの列は次の行に表示されます。

不規則なフォーマットのために、私はこれを理解することに固執しています。少なくとも、このタスク用のRuby PDFライブラリを誰かに教えてもらえますか?

更新:誤って間違った情報を提供しました!ファイルの実際のサイズは300MB、つまり300,000KBです。これを反映するために上記の変更を行いました。

0 投票する
2 に答える
1713 参照

python - オプションのパラメータを渡しながら、os.tmpファイルを使用してPythonでsubprocess.popenを使用する

私はLinuxでPythonプログラムを作成しており、その一部でpdftotext実行可能ファイルを実行してPDFテキストを変換しています。私が現在使用しているコードを以下に示します。

これは正常に機能しますが、-layoutオプションを指定してpdftotext実行可能ファイルを実行したいと思います(ドキュメントのレイアウトを保持します)。「-」をレイアウトに置き換えたり、「pdftotext」を「pdftotext-layout」に置き換えたりしてみました。いずれも機能しません。それらはすべて私に空のテキストを与えます。入力は一時ファイルを介してパイプされているため、引数リストを理解するのに問題があります。Popenに関するほとんどのドキュメントは、すべてのパラメーターが引数リストを介して渡されることを前提としていますが、私の場合、入力は一時ファイルを介して渡されます。

どんな助けでも大歓迎です。

0 投票する
2 に答える
23786 参照

utf-8 - pdftotextを使用してテキストファイルをUTF-8形式で保存する方法

PDFをテキストファイルに変換するためにpdftotextオープンソースツールを使用しています。テキストファイルをUTF-8形式で保存して、すべてのアクセント文字をテキストファイルに保持できるようにするにはどうすればよいですか。以下のコマンドを使用して、コンテンツをテキストファイルに抽出しますが、アクセント記号付きの文字を表示できません。

pdftotext -enc UTF-8 book1.pdf book1.txt

この問題の解決にご協力ください。

前もって感謝します、

0 投票する
3 に答える
3491 参照

python - ローカルマシンからウェブホスティングに変更すると、Pythonスクリプトからpdftotextを呼び出すことができません

PDFから情報を解析/抽出するための小さなpythonスクリプトを作成しました。ローカル マシンでテストしました。python 2.6.2 と pdftotext バージョン 0.12.4 を使用しています。

これを自分の Web ホスティング サーバー (dreamhost) で実行しようとしています。Python バージョン 2.5.2 と pdftotext バージョン 3.02 があります。

しかし、スクリプトを実行しようとすると、pdftotext 行で次のエラーが発生します (単純な破棄スクリプトでも確認しました)「エ​​ラー: ファイル '-' を開けませんでした」

私はこの関数に同じ PDF ファイルを渡していることに注意してください。別の関数では、Web ホストで実行されている同じスクリプトから PDF ドキュメントを自分自身に電子メールで送信できます。

私は何を間違っていますか?私のローカル バージョンとウェブホスト バージョンの間で、subprocess/python/pdftext の使用方法にどのような違いがあるのでしょうか? コマンドを変更する必要があると思いますので、どんな助けでも大歓迎です。

前もって感謝します。