問題タブ [pdf-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
350 参照

java - PDFをitextで解析していますか?

itext パーサーを使用して一貫した結果を得ることができません。これがコードです

レポートマネージャーでPDFを作成しています。2 種類のファイルのテンプレートは異なりますが、抽出するフィールドの位置は同じです。
LocationStrategy を使用しています。長方形は、解析したい位置を指しています。紙に印刷すると、問題のフィールドは同じ位置にあるため、同じものを解析する必要があると思いますが、そうではありません。最初のドキュメントでは期待どおりの結果が得られますが、2 番目のドキュメントを四角形の同じ座標で解析すると、期待される場所の 2 行上にあるものを解析しています。これがより良い説明であることを願っています。
レポートマネージャーでテンプレートを設定して、ターゲットフィールドが同じ位置、同じフォントサイズ、間隔、両方の PDF の同じドキュメントヘッダーになるように設定しましたが、印刷すると明らかですが、解析すると 2 行のオフセットが得られます。

0 投票する
1 に答える
6700 参照

c# - SaaS としての GhostScript の商用利用にはライセンスが必要ですか?

私はプロジェクトに取り組んでいました。ユーザーがPDFをアップロードして画像に変換できるので、GhostScript dll(gsdll32.dll)を使用しました。今私のアプリケーションでは、より多くの機能を提供できるように、毎月のサブスクリプションとしてユーザーに請求したいと考えています。

しかし、私はライセンス条項についても、ghostscript の条項と条件についても知りません。それで、ライセンスを購入する必要がありますか、または、ライセンスを取得せずに商用アプリケーションで使用できる、pdf 処理に使用できる他の無料の C# ライブラリはありますか?

まあ、私は関連する無料のC#ライブラリを好みます(プレミアムSaasまたは直接アプリケーション販売)。

ありがとう上記に関してリアルタイムの経験がある人は、助けてください。

0 投票する
1 に答える
4266 参照

php - クラス 'Smalot\PdfParser\Parser' が見つかりません

Pdfparserライブラリを使用して PDF ファイルを解析しようとしていますが、クラスのインクルードに問題があります。

ドキュメントを読みましたが、うまくいきません。

Windows と XAMPP を使用しています。

  • にディレクトリを作成しました/xampp/htdocs/pdf_import
  • Composer をインストールし、in を生成し/vendor/autoload.phpましたpdfparser-master/src
  • ドキュメントのコード例を使用します

例:

PHP スクリプトを実行すると、次のエラーが表示されます。

致命的なエラー: 8 行目の C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php にクラス 'Smalot\PdfParser\Parser' が見つかりません

0 投票する
2 に答える
14478 参照

python - PDFからテーブルを抽出する

このPDFの表からデータを取得しようとしています。少し運が良かったのでpdfminerとpypdfを試しましたが、実際にはテーブルからデータを取得できません。

テーブルの 1 つが次のようになります。 ここに画像の説明を入力

ご覧のとおり、一部の列は「x」でマークされています。このテーブルをオブジェクトのリストにしようとしています。

これはこれまでのコードです。現在pdfminerを使用しています。

これによりテキスト ファイルが生成され、すべてのテキストが取得されますが、x の間隔は保持されません。出力は次のようになります。 ここに画像の説明を入力

x は、テキスト ドキュメント内のシングル スペースです。

現在、私はテキスト出力を生成しているだけですが、私の目標は、テーブルからのデータを使用して html ドキュメントを生成することです。私は OCR の例を探してきましたが、それらのほとんどはわかりにくいか不完全なようです。私は、探している結果を生成する可能性のある C# またはその他の言語を使用することにオープンです。

編集:テーブルデータを取得する必要がある、このような複数のpdfがあります。ヘッダーはすべてのpdfで同じになります(私が知る限り)。

0 投票する
2 に答える
4394 参照

pdfbox - Apache PDFBoxは文字間のスペースを削除します

PDFBoxを使用してPDFからテキストを抽出しています。

一部の PDF のテキストは正しく抽出できません。次の画像は、PDF の一部を画像として示しています。

ここに画像の説明を入力

テキスト抽出後、次のテキストが得られます:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(「,」と「8」の間にスペースが追加されます)

コードは次のとおりです。

PDFTextStripper 属性の 'AverageCharTolerance' と 'SpacingTolerance' を試してみましたが、プラスの効果はありませんでした。

代替ライブラリ「iText」は、文字間にスペースを入れずにテキストを正しく抽出します。しかし、ライセンスの問題で使えません。

何か案は?ありがとうございました。

編集:バージョン 1.8.9 を使用しています。スナップショット バージョン 2.0.0 も試しましたが、効果はありませんでした。