問題タブ [pdftotext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
293 参照

c++ - 「pdftotext」コマンドラインツールを使用せずにPDF内のテキストを検索しますが、代わりにそのAPIを使用します

PDF ファイル内のテキストとその境界ボックスを検索したいと考えています。

最もうまく機能すると思われるツールはpdftotext(XPDF ベース) です。

ただし、コマンドラインなしでこのツールを使用する方法を理解することも、コマンドライン以外の API を見つけることもできませんでした。システム コールを使用せずに C++ プログラムでこれを使用できるようにしたいと考えています。

誰もこれを行う方法を知っていますか?

0 投票する
3 に答える
641 参照

ios - NSString で \n または \r を 1 つだけ置換する

PDF から NSString にテキストを読み込んでいます。以下のコードを使用してすべてのスペースを置き換えます

ただし、これにより、段落スペースと複数行も削除されます。\n または \r を 1 つだけ置き換えて、段落スペースまたは複数のタブと次の行を保持したいと考えています。

0 投票する
0 に答える
135 参照

php - 英語以外の文字の PDF からのテキスト

ここからpdf2textライブラリを使用しようとしています:

http://webcheatsheet.com/php/reading_clean_text_from_pdf.php

私のpdfにはチェコ語のデータが含まれており、ライブラリにはいくつかの文字に問題があります。

ř は Y に置き換えられます Ž は } に置き換えられます Kč は K\r .. に置き換えられます。

ただし、í、ú、Ý のように、いくつかは問題ありません。

正規表現の置き換え

[0-9a-f]

[0-9\x01-\x7F]

ライブラリでまったく結果が得られませんでした(正直に言うと、正規表現が苦手です)。文字列関数を mb_ に置き換えても違いはありません

サンプルデータ:

Kupující: anna123 - Anna Tova; 住所: Anna Tova, Jezborice 123, 530 02 Pardubice; お問い合わせ先: AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)

次の結果が得られます。

Kupující: anna123 - Anna Tova; PYíjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; お問い合わせ先: AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU}ITÉ (5209214093)

ありがとう

0 投票する
0 に答える
692 参照

pdf - 出力として奇妙な文字をpdftotext

Pythonでファイルをさらに処理するために.pdfファイルをテキストに変換するためにpdftotextを使用しようとしていますが、次の問題が発生しています:

一部のファイルの出力は次のようになりますが、一部の .pdf ファイルでは機能します (これは間違っています)。

これを見ると、1 つの 0 文字がちょうど 1 つの文字を表しているように思えます。

だから私の質問は、何が間違っている可能性がありますか? また、pdftotext の出力を修正するにはどうすればよいですか?

0 投票する
5 に答える
26878 参照

pdf - コマンドラインからPDFからテーブルデータをCSVとして抽出する方法は?

列ヘッダーとすべてのページヘッダーを無視して、ここからすべての行を抽出したいと思いますSupported Devices

結果のファイルは、CSV スプレッドシート形式 (カンマ区切りの値フィールド) である必要があります。

つまり、出力がまったくブレーキをかけないように、上記のコマンドを改善したいと考えています。何か案は?

0 投票する
1 に答える
1278 参照

python - PDFをテキストのPythonエラーに変換する

指定したディレクトリでpdfをテキストに変換したい

これは私が試したコードです

しかし、それはエラーになります

私のコードで何が問題になっていますか?

0 投票する
4 に答える
15463 参照

node.js - OS に依存しない nodejs の PDF からテキストへのエクストラクタ

OS に依存せずに nodejs で PDF からテキストを抽出する方法はありますか (pdf2text や Windows の xpdf など)? nodejsで「ネイティブ」pdfパッケージを見つけることができませんでした。これらは常に、既存の OS コマンドのラッパー/ユーティリティです。ありがとう

0 投票する
0 に答える
281 参照

oracle - Oracle レポート (Oracle10gR2 AS Reports Services) から生成された PDF をテキストに変換します。

PDFレポートをテキストファイルに変換する必要があります。PDF は、Oracle Reports、Oracle10gR2 AS Reports Services から生成されます。

ツールやガイドラインをいただければ幸いです。

ノート :

私はすでに以下をテストしましたが、Oracle10gR2 AS Reports Services から生成された PDF の場合、生成されたテキスト ファイルは役に立ちません。

0 投票する
1 に答える
1927 参照

javascript - アップロードしたpdfファイルを変数に渡す方法。(PDF.JS)

参考: http: //git.macropus.org/2011/11/pdftotext/example/

このプロジェクトでは、開発者は pdf を入力として受け取り、それを変数「input」に渡します。誰でも自分のpdfをアップロードできるように、アップロードメニュー/ドロップゾーンを作成し、変数「input」に自動的に渡されてテキストを抽出できるようにしたいと考えています。ファイルをアップロードすることはできます が、その pdf を変数「input」に渡す方法がわかりません。

このフォームを使用すると、pdf がアップロードされ、変数「input」を渡す必要があります。

0 投票する
0 に答える
240 参照

python - Python、スクレイピー: pdf からテキストへの変換: コードの実行中にエラーはありませんが、出力を生成していないようです

私はpython、scrapy、およびWebスクレイピングの初心者なので、私の質問は素朴に思えるかもしれません. その前に申し訳ありません。

Scrapy を使用して、PDF ファイルからデータを抽出したいと考えています。この件に関するstackoverflowに関する質問がいくつかあります。これらを調べて、回答の1つから次のコードをコピーしました。ただし、出力が表示されません。コードで print 関数を直接使用して出力を確認し、戻り値を Excel ファイルに書き込もうとしましたが、出力も表示されません。エラーも発生していません。

私が使用しているコードは次のとおりです。

誰かが私がどこで間違っているのか教えてもらえますか?

ありがとう!トゥヒナ