問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - PDFParser がスペースではなく特殊文字を生成するのはなぜですか?
次のコードは、ある PDF ではスペースの代わりに特殊文字を生成しますが、別の PDF では生成しません。
PDF に応じて、fullText の部分文字列は次のようになります。
の*サポート*で*使用され続け*ます*
次のようになります。
をサポートするために引き続き使用されます。
他の場所では、'%' は '-' と '!' を置き換えます。太字のテキストの間でスペースを置き換えます。
この問題は、1 つの PDF を処理し、他の PDF を処理しない場合にのみ発生します。pdfinfo によると、両方の PDF は Quartz PDFContext によって生成されます。
Linux コマンド pdftotext は同じ結果をレンダリングします。
これは元の PDF の生成方法に問題がありますか? なぜこうなった?
utf-8 - UTF-8 形式の PDFTOTEXT 出力に必要なファイルはどこですか?
XPDF ベースの PDFTOTEXT コマンドライン ツールを使用して PDF ファイルを表示し、UTF-8 出力を取得したいと考えています。StackOverflow で他の人がそれを取得しているのを見たことがあります。質問 4039930、3809761、および 13618330 は、他の人がそれを使用できたことを示しています。
オプションを使用すると、-enc utf-8
次のメッセージが表示されます。
(特に) UTF-8 エンコーディングが「定義済み」であるというドキュメントを見たことがありますが、参照する必要があるファイルが見つかりません。(XPDF ベースのソフトウェアの複数の異なるダウンロードを調べましたが、まだ見つかりません。)
任意のポインタをいただければ幸いです。
編集:私はWindowsを使用しています。
awk - エラーをキャプチャして awk にパイプする
エラーメッセージをキャプチャしてawkに送信したい(たとえば、pdfファイルが暗号化されている場合、pdftotextは「パスワードが正しくありません」というメッセージを表示します)。これにより、awkはそれを印刷できます。
以下のコマンドは、pdf ファイル内の単語をカウントします。ただし、パスワード付きのファイルの場合、コマンドは 0 カウントを返し、パスワードのない pdf 画像と衝突します (0 カウントも返します)。
私は立ち往生しています
PDF ファイルがパスワードで保護されている場合、「コマンド ライン エラー: パスワードが正しくありません」が awk にパイプされます。そのフレーズを印刷するにはどうすればよいですか? (この場合、単語数はありません。)
A.ダス
unicode - 複合グリフの文字コード (Unicode) をフォント ファイルから取得するにはどうすればよいですか?
フォントを扱うのは初めてなので、専門用語はご容赦ください。
私がしていること: Python の PDFMiner を使用している多言語文字 (このコンテキストではグジャラート語) を含む PDF からテキストを抽出する必要があります。
どこで立ち往生していますか: PDFMiner は、ほとんどの文字を抽出するのに優れていますが、抽出できない文字ごとに、その文字の CID を提供します。(PDFで使用しているフォントファイルはShruti.ttf です)
例: テキスト પર્િસિદ્ધની તારીખ の場合、પર્િસિ(cid:263)ની તારીખ となります。ここでは દ્ધ が欠落しており、その CID は 263 で、フォント ファイル内のグリフ名は .notdef#134 です。
Python の TTX/FontTools を使用して Shruti.ttf ファイルからすべてのテーブルを抽出し、インデックス 263 の文字を確認しました。むしろその輪郭がそこに記載されています..
まず、私のアプローチが正しいかどうか、またはこれを達成するためのより良い方法があるかどうかを知る必要があります。次に、複合グリフ CID が与えられた場合、その構成グリフの Unicode を取得するにはどうすればよいかを知る必要があります。
ありがとう。
linux - Linux PdfToText 関数は空白のテキスト ファイルを返します
PDFファイルのリストをテキストに変換するためにLinux関数を使用しました。
指示:
これは、ほとんどのファイルでうまく機能します。
しかし、それらの一部については、空のテキスト ファイルが返されます。
私の失敗したpdfファイルは暗号化されておらず、ユーザー/パスワードによって保護されておらず、読み取り専用ではありませんでした.
r - R を使用して PDF ファイルをテキスト マイニング用のテキスト ファイルに変換する
1 つのフォルダーに 1,000 近くの PDF ジャーナル記事があります。フォルダー全体からのすべての記事の要約について、テキスト メッセージを送信する必要があります。今、私は次のことをしています:
これにより、1 つの pdf ファイルを 1 つの .txt ファイルに変換し、アブストラクトを別の .txt ファイルにコピーして手動でコンパイルしています。この作業は面倒です。
フォルダーから個々の記事をすべて読み取り、各記事の要約のみを含む .txt ファイルに変換するにはどうすればよいですか。これは、各記事のアブストラクトとイントロダクションの間のコンテンツを制限することで実現できます。しかし、私はそうすることができません。どんな助けでも大歓迎です。