問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
command-line - WindowsとUbuntuサーバーでpdftotextを使用する
私の Windows 7 PC では、コマンド ラインに「pdftotext myfile.pdf」と入力すると、myfile.pdf と同じディレクトリに .txt ファイルが作成されます。ただし、ubuntu-12.04 サーバーで同じ myfile.pdf を使用して同じコマンド ライン入力を試みると、次のようなエラー出力が表示されます。
等々...
Windows 7 の pdf ユーティリティ パッケージは、Linux で利用できるもの (Poppler のもの) とは異なりますか? そうでなければ、同じ呼び出しで同じ結果が得られるはずですよね?
windows-7 - pdftotextの出力がWindows7PCとLinuxサーバーで異なるのはなぜですか?
両方のマシンで同じバージョンのxpdfを使用しています。ただし、Windows 7 PCで作成された.txtファイルは、Ubuntu12.04Linuxサーバーで作成されたものとは異なります。Windows 7 .txtファイルは、解析をかなり簡単にする多数の改行で整形式になっています。ただし、Linuxバージョンには改行がまったく含まれていません。Linuxで実行しているときに明示的に呼び出す必要があるWindows7のpdftotextが使用するオプションはありますか?
centos - Centos 6 64ビットのpdftotext?
私は HostGator VPS サーバーを持っており、 ( http://www.foolabs.com/xpdf/download.htmlpdftotext
)の一部を実行できるようにしたいと考えています。xpdf
これを私の Mac でテストしたところ、問題なく動作したので、VPS サーバーにインストールしました。
インストール手順に従いましたが、すべて問題なくインストールされました。
実行可能ファイル (xpdf、pdftotext など) を /usr/local/bin にコピーします。
man ページ (*.1 および *.5) を /usr/local/man/man1 および /usr/local/man/man5 にコピーします。
sample-xpdfrc ファイルを /usr/local/etc/xpdfrc にコピーします。
それから私はそれをテストしました:
ご覧のとおり、見つかりません/lib64/libc.so.6
でした。/lib64/libc.so.6
ただし、次のように表示されます。
/lib64/libc.so.6
次に HostGator に連絡したところ、 が見つからず、Centos 6 64 ビットでは使用できないため、私のサーバーでは機能しないと言われました。
これが本当なら、pdftotext
このサーバーで動作するシンプルで高速な変換を行う代替手段はありますか? が別のバージョンに準拠している可能性はありpdftotext
ますか? または、パーミッションで間違ってインストールした可能性はありますか?
pdf - PDFからテキストコンテンツを抽出する
pdftotextを使用してPDFからテキストを抽出しています。私もGhostscriptでこれを行いました。最近、ユーティリティプロバイダーがPDFを変更したため、PDFの一部がこれらのメソッドで抽出されていません。具体的には、期日と合計期日がありません。リーダーでPDFを開くと、「欠落している」テキストを強調表示してコピーし、外部エディターに貼り付けることができます。それをAcrobatProで開き、コンテンツを表示すると([表示]->[表示/非表示]->[ナビゲーションペイン]->[コンテンツ])、必要なテキストがそこにあります。手動でコピーして貼り付けることなく、どうすれば取り出すことができますか?(これは何千ものPDFで行うため、オプションではありません)?
これが私が扱っているものの例です。すべての機密データを削除しました:
編集:これを投稿した後、ファイル(Googleドライブでホストされている)へのリンクをたどると、ページ上のほとんどのテキストを選択してコピーできるようになりますが、不足しているものはできません。ファイルをダウンロードすると、PDFリーダーで不足しているテキストを選択できます。
python - PdfMiner と PyPDF2 マージ列を使用してテキストを抽出
pdfMiner を使用して pdf ファイルのテキストを解析しようとしていますが、抽出されたテキストがマージされます。以下のリンクのpdfファイルを使用しています。
私はあらゆるタイプの出力 (ファイル/文字列) を得意としています。抽出されたテキストを文字列として返すコードを次に示しますが、何らかの理由で列がマージされます。
PyPdf2 も試しましたが、同じ問題に直面しました。PyPDF2 のサンプル コードは次のとおりです。
pdf2txt.pyも試しましたが、フォーマットされた出力を取得できません。
poppler - poppler が非標準のディレクトリで追加のエンコーディング データを使用するようにするにはどうすればよいですか?
poppler の一部として pdftotext をテストしています。私が使用している共有ホストにプリインストールされています。などのエラーに対処するために、言語パックを含む poppler エンコーディング データを追加したいと思います"Missing language pack for 'Adobe-GB1' mapping"
。
共有ホスト ( ) の推奨ディレクトリにエンコーディング データをインストールする権限がないように見える/usr/share/poppler
ので、データが使用されるようにデータを配置した場所を poppler に伝えるにはどうすればよいですか?
pdftotextのman ページには、データ パッケージを指すフラグが記述されていないようです。
pdftotext は次の場所にあります/usr/bin/pdftotext
bash - 複数のPDFファイルのコンテンツを検索し、PDFのファイル名と一致するコンテンツを返しますか?
私はこれを試しました:
このようにしecho "$PDF
て、私の単語「回文」が見つかった.pdfファイルから一部のテキストのみを印刷しますが、彼が単語を見つけた.pdfファイル名も知りたいです。
/"$DIRECTORY"/
多くのフォルダー、.pdf および .txt ファイルがあるため、テキスト変換が私の単語「回文」と一致する .pdf ファイルのみを返す必要があります。
ありがとう