問題タブ [pdftotext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 「pdftotext」コマンドラインツールを使用せずにPDF内のテキストを検索しますが、代わりにそのAPIを使用します
PDF ファイル内のテキストとその境界ボックスを検索したいと考えています。
最もうまく機能すると思われるツールはpdftotext
(XPDF ベース) です。
ただし、コマンドラインなしでこのツールを使用する方法を理解することも、コマンドライン以外の API を見つけることもできませんでした。システム コールを使用せずに C++ プログラムでこれを使用できるようにしたいと考えています。
誰もこれを行う方法を知っていますか?
ios - NSString で \n または \r を 1 つだけ置換する
PDF から NSString にテキストを読み込んでいます。以下のコードを使用してすべてのスペースを置き換えます
ただし、これにより、段落スペースと複数行も削除されます。\n または \r を 1 つだけ置き換えて、段落スペースまたは複数のタブと次の行を保持したいと考えています。
php - 英語以外の文字の PDF からのテキスト
ここからpdf2textライブラリを使用しようとしています:
http://webcheatsheet.com/php/reading_clean_text_from_pdf.php
私のpdfにはチェコ語のデータが含まれており、ライブラリにはいくつかの文字に問題があります。
ř は Y に置き換えられます Ž は } に置き換えられます Kč は K\r .. に置き換えられます。
ただし、í、ú、Ý のように、いくつかは問題ありません。
正規表現の置き換え
[0-9a-f]
と
[0-9\x01-\x7F]
ライブラリでまったく結果が得られませんでした(正直に言うと、正規表現が苦手です)。文字列関数を mb_ に置き換えても違いはありません
サンプルデータ:
Kupující: anna123 - Anna Tova; 住所: Anna Tova, Jezborice 123, 530 02 Pardubice; お問い合わせ先: AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)
次の結果が得られます。
Kupující: anna123 - Anna Tova; PYíjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; お問い合わせ先: AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU}ITÉ (5209214093)
ありがとう
pdf - 出力として奇妙な文字をpdftotext
Pythonでファイルをさらに処理するために.pdfファイルをテキストに変換するためにpdftotextを使用しようとしていますが、次の問題が発生しています:
一部のファイルの出力は次のようになりますが、一部の .pdf ファイルでは機能します (これは間違っています)。
これを見ると、1 つの 0 文字がちょうど 1 つの文字を表しているように思えます。
だから私の質問は、何が間違っている可能性がありますか? また、pdftotext の出力を修正するにはどうすればよいですか?
pdf - コマンドラインからPDFからテーブルデータをCSVとして抽出する方法は?
列ヘッダーとすべてのページヘッダーを無視して、ここからすべての行を抽出したいと思いますSupported Devices
。
結果のファイルは、CSV スプレッドシート形式 (カンマ区切りの値フィールド) である必要があります。
つまり、出力がまったくブレーキをかけないように、上記のコマンドを改善したいと考えています。何か案は?
python - PDFをテキストのPythonエラーに変換する
指定したディレクトリでpdfをテキストに変換したい
これは私が試したコードです
しかし、それはエラーになります
私のコードで何が問題になっていますか?
node.js - OS に依存しない nodejs の PDF からテキストへのエクストラクタ
OS に依存せずに nodejs で PDF からテキストを抽出する方法はありますか (pdf2text や Windows の xpdf など)? nodejsで「ネイティブ」pdfパッケージを見つけることができませんでした。これらは常に、既存の OS コマンドのラッパー/ユーティリティです。ありがとう
oracle - Oracle レポート (Oracle10gR2 AS Reports Services) から生成された PDF をテキストに変換します。
PDFレポートをテキストファイルに変換する必要があります。PDF は、Oracle Reports、Oracle10gR2 AS Reports Services から生成されます。
ツールやガイドラインをいただければ幸いです。
ノート :
私はすでに以下をテストしましたが、Oracle10gR2 AS Reports Services から生成された PDF の場合、生成されたテキスト ファイルは役に立ちません。
javascript - アップロードしたpdfファイルを変数に渡す方法。(PDF.JS)
参考: http: //git.macropus.org/2011/11/pdftotext/example/
このプロジェクトでは、開発者は pdf を入力として受け取り、それを変数「input」に渡します。誰でも自分のpdfをアップロードできるように、アップロードメニュー/ドロップゾーンを作成し、変数「input」に自動的に渡されてテキストを抽出できるようにしたいと考えています。ファイルをアップロードすることはできます が、その pdf を変数「input」に渡す方法がわかりません。
このフォームを使用すると、pdf がアップロードされ、変数「input」を渡す必要があります。
python - Python、スクレイピー: pdf からテキストへの変換: コードの実行中にエラーはありませんが、出力を生成していないようです
私はpython、scrapy、およびWebスクレイピングの初心者なので、私の質問は素朴に思えるかもしれません. その前に申し訳ありません。
Scrapy を使用して、PDF ファイルからデータを抽出したいと考えています。この件に関するstackoverflowに関する質問がいくつかあります。これらを調べて、回答の1つから次のコードをコピーしました。ただし、出力が表示されません。コードで print 関数を直接使用して出力を確認し、戻り値を Excel ファイルに書き込もうとしましたが、出力も表示されません。エラーも発生していません。
私が使用しているコードは次のとおりです。
誰かが私がどこで間違っているのか教えてもらえますか?
ありがとう!トゥヒナ