問題タブ [pdf-parsing]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

153 問題

0 投票する

0 に答える

350 参照

java - PDFをitextで解析していますか?

itext パーサーを使用して一貫した結果を得ることができません。これがコードです

レポートマネージャーでPDFを作成しています。2 種類のファイルのテンプレートは異なりますが、抽出するフィールドの位置は同じです。
LocationStrategy を使用しています。長方形は、解析したい位置を指しています。紙に印刷すると、問題のフィールドは同じ位置にあるため、同じものを解析する必要があると思いますが、そうではありません。最初のドキュメントでは期待どおりの結果が得られますが、2 番目のドキュメントを四角形の同じ座標で解析すると、期待される場所の 2 行上にあるものを解析しています。これがより良い説明であることを願っています。
レポートマネージャーでテンプレートを設定して、ターゲットフィールドが同じ位置、同じフォントサイズ、間隔、両方の PDF の同じドキュメントヘッダーになるように設定しましたが、印刷すると明らかですが、解析すると 2 行のオフセットが得られます。

2014-10-24T13:30:36.550

0 投票する

1 に答える

6700 参照

c# - SaaS としての GhostScript の商用利用にはライセンスが必要ですか?

私はプロジェクトに取り組んでいました。ユーザーがPDFをアップロードして画像に変換できるので、GhostScript dll（gsdll32.dll）を使用しました。今私のアプリケーションでは、より多くの機能を提供できるように、毎月のサブスクリプションとしてユーザーに請求したいと考えています。

しかし、私はライセンス条項についても、ghostscript の条項と条件についても知りません。それで、ライセンスを購入する必要がありますか、または、ライセンスを取得せずに商用アプリケーションで使用できる、pdf 処理に使用できる他の無料の C# ライブラリはありますか?

まあ、私は関連する無料のC＃ライブラリを好みます（プレミアムSaasまたは直接アプリケーション販売）。

ありがとう上記に関してリアルタイムの経験がある人は、助けてください。

c#pdf open-source ghostscript pdf-parsing

2014-12-09T06:51:16.523

0 投票する

1 に答える

4266 参照

php - クラス 'Smalot\PdfParser\Parser' が見つかりません

Pdfparserライブラリを使用して PDF ファイルを解析しようとしていますが、クラスのインクルードに問題があります。

ドキュメントを読みましたが、うまくいきません。

Windows と XAMPP を使用しています。

にディレクトリを作成しました/xampp/htdocs/pdf_import
Composer をインストールし、in を生成し/vendor/autoload.phpましたpdfparser-master/src
ドキュメントのコード例を使用します

例：

PHP スクリプトを実行すると、次のエラーが表示されます。

致命的なエラー: 8 行目の C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php にクラス 'Smalot\PdfParser\Parser' が見つかりません

php pdf-parsing

2014-12-24T10:15:16.660

0 投票する

2 に答える

14478 参照

python - PDFからテーブルを抽出する

このPDFの表からデータを取得しようとしています。少し運が良かったのでpdfminerとpypdfを試しましたが、実際にはテーブルからデータを取得できません。

テーブルの 1 つが次のようになります。ここに画像の説明を入力

ご覧のとおり、一部の列は「x」でマークされています。このテーブルをオブジェクトのリストにしようとしています。

これはこれまでのコードです。現在pdfminerを使用しています。

これによりテキストファイルが生成され、すべてのテキストが取得されますが、x の間隔は保持されません。出力は次のようになります。ここに画像の説明を入力

x は、テキストドキュメント内のシングルスペースです。

現在、私はテキスト出力を生成しているだけですが、私の目標は、テーブルからのデータを使用して html ドキュメントを生成することです。私は OCR の例を探してきましたが、それらのほとんどはわかりにくいか不完全なようです。私は、探している結果を生成する可能性のある C# またはその他の言語を使用することにオープンです。

編集:テーブルデータを取得する必要がある、このような複数のpdfがあります。ヘッダーはすべてのpdfで同じになります（私が知る限り）。

python python-2.7 ocr pdfminer pdf-parsing

2015-01-13T17:22:39.307

0 投票する

2 に答える

4394 参照

pdfbox - Apache PDFBoxは文字間のスペースを削除します

PDFBoxを使用してPDFからテキストを抽出しています。

一部の PDF のテキストは正しく抽出できません。次の画像は、PDF の一部を画像として示しています。

ここに画像の説明を入力

テキスト抽出後、次のテキストが得られます:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(「,」と「8」の間にスペースが追加されます)

コードは次のとおりです。

PDFTextStripper 属性の 'AverageCharTolerance' と 'SpacingTolerance' を試してみましたが、プラスの効果はありませんでした。

代替ライブラリ「iText」は、文字間にスペースを入れずにテキストを正しく抽出します。しかし、ライセンスの問題で使えません。

何か案は？ありがとうございました。

編集:バージョン 1.8.9 を使用しています。スナップショットバージョン 2.0.0 も試しましたが、効果はありませんでした。

pdfbox text-extraction pdf-parsing

2015-04-10T06:01:24.553

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-parsing]

java - PDFをitextで解析していますか?

c# - SaaS としての GhostScript の商用利用にはライセンスが必要ですか?

php - クラス 'Smalot\PdfParser\Parser' が見つかりません

python - PDFからテーブルを抽出する

pdfbox - Apache PDFBoxは文字間のスペースを削除します

Reference