問題タブ [xpdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 共有ドライブで xpdf (pdftotext.exe) を実行するには?
および(pdftotext.exe)を介してpdfをテキストに解析しようとしています。私のローカルホストではすべてうまくいきますが、サーバー上のすべてを移動しようとすると、問題が発生します。PHP
XPDF
まず、サーバーのいくつかの設定を確認しましたが、safe_mode はoffで、execは無効になっておらず、パーミッションはrwxrwxrwx
.
それから私はこれを試しています
これは機能していません。調べる$result, $output,
と空ですが、$args は 1 を返します。これは、このドキュメントの Windows システム エラー コードによる不正な機能に対応しています。
コマンド全体は次のよう\\149.223.22.11\cae\04_Knowledge-base\tools\pdftotext.exe -enc UTF-8 \\149.223.22.11\cae\04_Knowledge-base\testpdf\04_egerland_final_paper.pdf \\149.223.22.11\cae\04_Knowledge-base\output.txt
になり、コマンドラインに直接入力すると機能します。
だから私は少しアイデアがありません。誰かヒントはありますか?
edit 20160201 - 追加の試行 だから私は追加のテストを行い、localhost から exec で同様のコマンドを実行しようとすると (ターゲット .exe ファイル、入力ファイルと出力ファイルは同じ場所にあり、サーバーではなく localhost を使用するだけです)、動作します。サーバー設定の違いを確認しています。ここで問題になる可能性があるのは、localhosts Server Api がApache 2.0 Handler であり、サーバーがCGI/FASTCGI であるかどうかです。
php - PHPで「テキスト」PDFと「画像」PDFを区別するにはどうすればよいですか?
最近、Xpdf の一部であるコマンドを使用してテキストベースの PDF をテキストに変換したり、 (Ghostscript) とコマンドpdftotext
の組み合わせを使用して画像ベースの PDF をテキストに変換したりできるように、Linux サーバーをセットアップしました。.gs
tesseract
PDF がテキストベースか画像ベースかがわかっている場合、どちらのソリューションもうまく機能します。ただし、多くの PDF をテキストに変換するプロセスを自動化するには、PDF がテキスト ベースか画像ベースかを判別して、PDF で実行する一連のプロセスを把握できる必要があります。
PHPでPDFを分析し、それがテキストベースか画像ベースかを判断して、XpdfまたはGhostscript/Tesseractを使用するかどうかを知る方法はありますか?
pdfbox - PDFページがPDFBOX、XPDFで画像(スキャン)されているかどうかを確認するにはどうすればよいですか
画像抽出時の PDFBox の問題。こんにちは、pdfページが画像であるかどうかを確認し、PDFBOXライブラリでそれを抽出する方法はありますが、画像を取得する方法がありますが、PDFページが画像の場合は取得できません。誰かがこの問題を解決するのを手伝ってくれませんか。
画像の抽出に関する Xpdf の問題。別のライブラリ xpdf で画像を抽出しようとしましたが、画像の場合、ページ上で奇妙なフリップが行われます。PDFにオブジェクト画像として小さな画像が含まれている場合は問題ありません。ページがスキャンされている場合、彼はフリップを行っています。
ページをスキャンして画像として取得する場合、ページにプレーンテキストと画像が含まれている場合、このページから画像を取得する場合、PDF からすべての画像を抽出したいと考えています。
私のポイントは、PDFからすべての画像を抽出することです。ページを形成するだけでなく、ページが画像であっても画像として抽出しますが、それらをスキップしないでください PDFbox はどうなっていると思いますか。
XPDF は何らかの処理を行っていますが、スキャンしたページをエクスポートするときに、ページに FLIP(上、右) という問題があります。
どうすればこの問題を解決できますか ありがとう。
batch-file - xpdfバッチファイル:ファイル名を変更するには?
PDFをTXTファイルに変換するためにxpdfエンジンを呼び出す単純なバッチファイルを使用しています。現時点では、拡張子がもちろん .txt に変更されていることを除いて、結果の txt ファイルの名前は PDF の名前と同じです。ただし、元のファイル名の後ろにテキストを追加したいのですが、どうすればよいですか? たとえば、test.pdf という PDF がある場合、それをテキストに変換し、testFULL.txt という txt ファイルに保存する必要があります。
これは私が持っている現在のバッチファイルです:
for /R %%s in (*.pdf) do "C:\xpdf\bin32\pdftotext" -raw "%%s"
r - Rのリストにpdfファイルを追加するにはどうすればよいですか?
R で pdf ファイルを分析しようとしています。 data.library.virginia.edu/reading-pdf-files-into-r-for-text-mining/ の指示に従ってください。最初のいくつかの手順はうまくいきましたが、どうにかして PDF ファイルを R のリストに接続する必要があることに気付きました。Windows で関数 xpdf を使用するための指示を正しく使用したと思います。
以下は、これまでの R での私のコーディングです。
これは、このフォーラムで初めての質問です (まったくの初心者です)。不明な点がある場合、またはこの質問を間違って作成した場合は、喜んでお聞きします。