問題タブ [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1278 参照

pdf - PDFファイルのページ数を数える

これを行うことができるいくつかのツール/ライブラリを知っていますが、ファイルをテキスト ファイルとして開き、キーワードを探すだけでこれが可能かどうかを知りたいです。

0 投票する
1 に答える
1456 参照

java - 指定された座標からテキストを抽出できる PDF 解析ライブラリはありますか?

おはようございます。指定されたフィールドとセクションの仕様に従って、PDF ファイル (銀行の請求書) からテキストを抽出するタスクが割り当てられました。この仕様は、YAML ファイルで提供されます。フィールドは、テキストが存在する長方形の左上と右下、およびフィールドの名前の 2 つの座標のセットとして表されます。SnakeYAML を使用して、この情報をオブジェクトにロードしています。私はここまで成功しています。次の部分では、このデータを使用して PDF からテキストを抽出する必要があります。1 つは、どの PDF 解析ライブラリを使用するかをまだ決定できていないことです。私のタスクに適した PDF 解析ライブラリを教えてください。また、上記のタスクを達成するにはどうすればよいですか? ありがとう!

0 投票する
1 に答える
1047 参照

java - PDFはJavaを使用してテキストに解析します

私はpdfファイルからアラビア語のテキストを抽出するのと同じ問題を抱えています、解決策を手に入れたら誰でも助けることができますか?pdfboxで何度も試しましたが、結果がありません。

0 投票する
1 に答える
1576 参照

pdf - PDF(UTF-8)からテキストを正しく抽出する

いくつかの pdf ファイルからテキストを抽出したいのですが (プログラムによって、ユーティリティを使用して、またはコピー/貼り付けを使用して)、一部の文字が非常に奇妙になります。テキストを抽出するときに UTF-8 エンコーディングを指定しますが、「ş、ț、ă」などの文字は「s、t、a」(または少なくとも表示される文字)ではなく「„ ˛」のように見えます。テキストは正しく表示されますが、たとえばコピーしようとすると、それらの文字が正しく表示されません。
テキストを正しく抽出する方法はありますか、またはそれらの pdf ファイルが何らかの方法 (java/C/python などまたは windows/linux/etc ユーティリティ) で破損していますか?

0 投票する
4 に答える
11096 参照

java - iText - テキスト セグメントのフォント サイズとファミリを取得する

現在、PDF ファイルから重要なキーワードを自動的に抽出しようとしています。PDFドキュメントからテキスト情報を取得できます。しかし今、これらのキーワードが持つフォント サイズとフォント ファミリを知る必要があります。

私がすでに持っている次のコード:

主要

SemTextExtractionStrategyそして、次のようなTextExtraction Strategy を実装しました。

FontType は取得できますが、フォント サイズを取得する方法はありません。別の方法はありますか、または現在のテキスト セグメントのフォント サイズを取得するにはどうすればよいですか?

または、TextSegments からフォント サイズを取得できる他のライブラリはありますか? 私はすでにPDFBoxとPDFTextStreamを調べました。Aspose の PDF シェアウェア ライブラリは、その仕事を完璧にこなしてくれます。しかし、それは非常に高価で、オープン ソース プロジェクトを使用する必要があります。

0 投票する
2 に答える
113 参照

export-to-csv - 退役軍人病院のデータベースに適したリストを取得する最良の方法

これについて議論するのに適切なフォーラムではない場合は、心からお詫び申し上げます。

基本的に、退役軍人病院のデータベースに適したリストを見つけようとしています。私が見つけた最も近いものは www.va.gov/ofcadmin/docs/CATB.pdf です。探している情報がすべて含まれているからです。

  • 領域
  • 住所
  • 別の列の都市
  • 別の列の郵便番号
  • 施設番号 (StationID とも呼ばれます)
  • VISN
  • シンボル

そのPDFをCSVにエクスポートしようとしましたが、うまくいくのは完全な悪夢です。そのため、このタスクをどのように達成できるかについて誰かアイデアや洞察を持っているかどうか知りたいと思っていました.

0 投票する
1 に答える
347 参照

ios - iOSがPDFからテキストを取得

こんにちは私は速読アプリに取り組んでいます、そして私はいくつかのヒントや提案を探しています。このアプリでは、さまざまな読み取り手法を使用する必要があります。これには、PDFからさまざまなサイズでテキストをフォーマットする必要があります。写真なしの自動スクロールなどのテクニック。誰かがこれを行う人をすでに知っていますか?または私のための例がありますか?

0 投票する
0 に答える
1304 参照

pdf - コードでチェックボックスを選択してもpdfboxが表示されない

PDFbox Java API を使用して PDF の値を入力しています。

テキストボックスの値を入力できます。How to check a check box in PDF-form using Java PDFBOX apiに示すように、チェックボックスに check() メソッドを使用すると 、バックグラウンドで値が true に設定されますが、pdf を開いたときに反映されません。

チェックボックスは値なしでまだ空白です。

誰もこの問題を修正する方法を知っていますか?

0 投票する
1 に答える
403 参照

perl - Perl エラー - 未定義の値で「getPageContent」を呼び出せませんか?

こんにちは、pdfファイルのコンテンツを抽出しようとしていますが、上記の問題に直面しています私のコードは

ここでエラー「getPageContent(1)」が表示されます。私のコードで何がうまくいかなかったのか