問題タブ [pdf-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - PDFをitextで解析していますか?
itext パーサーを使用して一貫した結果を得ることができません。これがコードです
レポートマネージャーでPDFを作成しています。2 種類のファイルのテンプレートは異なりますが、抽出するフィールドの位置は同じです。
LocationStrategy を使用しています。長方形は、解析したい位置を指しています。紙に印刷すると、問題のフィールドは同じ位置にあるため、同じものを解析する必要があると思いますが、そうではありません。最初のドキュメントでは期待どおりの結果が得られますが、2 番目のドキュメントを四角形の同じ座標で解析すると、期待される場所の 2 行上にあるものを解析しています。これがより良い説明であることを願っています。
レポートマネージャーでテンプレートを設定して、ターゲットフィールドが同じ位置、同じフォントサイズ、間隔、両方の PDF の同じドキュメントヘッダーになるように設定しましたが、印刷すると明らかですが、解析すると 2 行のオフセットが得られます。
c# - SaaS としての GhostScript の商用利用にはライセンスが必要ですか?
私はプロジェクトに取り組んでいました。ユーザーがPDFをアップロードして画像に変換できるので、GhostScript dll(gsdll32.dll)を使用しました。今私のアプリケーションでは、より多くの機能を提供できるように、毎月のサブスクリプションとしてユーザーに請求したいと考えています。
しかし、私はライセンス条項についても、ghostscript の条項と条件についても知りません。それで、ライセンスを購入する必要がありますか、または、ライセンスを取得せずに商用アプリケーションで使用できる、pdf 処理に使用できる他の無料の C# ライブラリはありますか?
まあ、私は関連する無料のC#ライブラリを好みます(プレミアムSaasまたは直接アプリケーション販売)。
ありがとう上記に関してリアルタイムの経験がある人は、助けてください。
php - クラス 'Smalot\PdfParser\Parser' が見つかりません
Pdfparserライブラリを使用して PDF ファイルを解析しようとしていますが、クラスのインクルードに問題があります。
ドキュメントを読みましたが、うまくいきません。
Windows と XAMPP を使用しています。
- にディレクトリを作成しました
/xampp/htdocs/pdf_import
- Composer をインストールし、in を生成し
/vendor/autoload.php
ましたpdfparser-master/src
- ドキュメントのコード例を使用します
例:
PHP スクリプトを実行すると、次のエラーが表示されます。
致命的なエラー: 8 行目の C:\xampp\htdocs\pdf_import\pdfparser-master\src\import.php にクラス 'Smalot\PdfParser\Parser' が見つかりません
python - PDFからテーブルを抽出する
このPDFの表からデータを取得しようとしています。少し運が良かったのでpdfminerとpypdfを試しましたが、実際にはテーブルからデータを取得できません。
テーブルの 1 つが次のようになります。
ご覧のとおり、一部の列は「x」でマークされています。このテーブルをオブジェクトのリストにしようとしています。
これはこれまでのコードです。現在pdfminerを使用しています。
これによりテキスト ファイルが生成され、すべてのテキストが取得されますが、x の間隔は保持されません。出力は次のようになります。
x は、テキスト ドキュメント内のシングル スペースです。
現在、私はテキスト出力を生成しているだけですが、私の目標は、テーブルからのデータを使用して html ドキュメントを生成することです。私は OCR の例を探してきましたが、それらのほとんどはわかりにくいか不完全なようです。私は、探している結果を生成する可能性のある C# またはその他の言語を使用することにオープンです。
編集:テーブルデータを取得する必要がある、このような複数のpdfがあります。ヘッダーはすべてのpdfで同じになります(私が知る限り)。
pdfbox - Apache PDFBoxは文字間のスペースを削除します
PDFBoxを使用してPDFからテキストを抽出しています。
一部の PDF のテキストは正しく抽出できません。次の画像は、PDF の一部を画像として示しています。
テキスト抽出後、次のテキストが得られます:
3, 8 5 EU R 1 Netto 38,50 EUR 4,00
(「,」と「8」の間にスペースが追加されます)
コードは次のとおりです。
PDFTextStripper 属性の 'AverageCharTolerance' と 'SpacingTolerance' を試してみましたが、プラスの効果はありませんでした。
代替ライブラリ「iText」は、文字間にスペースを入れずにテキストを正しく抽出します。しかし、ライセンスの問題で使えません。
何か案は?ありがとうございました。
編集:バージョン 1.8.9 を使用しています。スナップショット バージョン 2.0.0 も試しましたが、効果はありませんでした。