“pdf-extraction”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

1278 参照

pdf - PDFファイルのページ数を数える

これを行うことができるいくつかのツール/ライブラリを知っていますが、ファイルをテキストファイルとして開き、キーワードを探すだけでこれが可能かどうかを知りたいです。

pdf pdf-extraction

2010-10-05T06:45:45.843

0 投票する

1 に答える

1456 参照

java - 指定された座標からテキストを抽出できる PDF 解析ライブラリはありますか?

おはようございます。指定されたフィールドとセクションの仕様に従って、PDF ファイル (銀行の請求書) からテキストを抽出するタスクが割り当てられました。この仕様は、YAML ファイルで提供されます。フィールドは、テキストが存在する長方形の左上と右下、およびフィールドの名前の 2 つの座標のセットとして表されます。SnakeYAML を使用して、この情報をオブジェクトにロードしています。私はここまで成功しています。次の部分では、このデータを使用して PDF からテキストを抽出する必要があります。1 つは、どの PDF 解析ライブラリを使用するかをまだ決定できていないことです。私のタスクに適した PDF 解析ライブラリを教えてください。また、上記のタスクを達成するにはどうすればよいですか? ありがとう！

2011-09-02T08:51:18.003

0 投票する

1 に答える

1047 参照

java - PDFはJavaを使用してテキストに解析します

私はpdfファイルからアラビア語のテキストを抽出するのと同じ問題を抱えています、解決策を手に入れたら誰でも助けることができますか？pdfboxで何度も試しましたが、結果がありません。

java arabic pdf-extraction

2011-12-05T10:07:06.643

0 投票する

1 に答える

1576 参照

pdf - PDF（UTF-8）からテキストを正しく抽出する

いくつかの pdf ファイルからテキストを抽出したいのですが (プログラムによって、ユーティリティを使用して、またはコピー/貼り付けを使用して)、一部の文字が非常に奇妙になります。テキストを抽出するときに UTF-8 エンコーディングを指定しますが、「ş、ț、ă」などの文字は「s、t、a」（または少なくとも表示される文字）ではなく「„ ˛」のように見えます。テキストは正しく表示されますが、たとえばコピーしようとすると、それらの文字が正しく表示されません。
テキストを正しく抽出する方法はありますか、またはそれらの pdf ファイルが何らかの方法 (java/C/python などまたは windows/linux/etc ユーティリティ) で破損していますか?

pdf text utf-8 text-extraction pdf-extraction

2012-05-18T08:51:19.987

0 投票する

4 に答える

11096 参照

java - iText - テキストセグメントのフォントサイズとファミリを取得する

現在、PDF ファイルから重要なキーワードを自動的に抽出しようとしています。PDFドキュメントからテキスト情報を取得できます。しかし今、これらのキーワードが持つフォントサイズとフォントファミリを知る必要があります。

私がすでに持っている次のコード：

主要

SemTextExtractionStrategyそして、次のようなTextExtraction Strategy を実装しました。

FontType は取得できますが、フォントサイズを取得する方法はありません。別の方法はありますか、または現在のテキストセグメントのフォントサイズを取得するにはどうすればよいですか?

または、TextSegments からフォントサイズを取得できる他のライブラリはありますか? 私はすでにPDFBoxとPDFTextStreamを調べました。Aspose の PDF シェアウェアライブラリは、その仕事を完璧にこなしてくれます。しかし、それは非常に高価で、オープンソースプロジェクトを使用する必要があります。

java pdf itext text-extraction pdf-extraction

2012-06-04T09:48:23.323

0 投票する

2 に答える

113 参照

export-to-csv - 退役軍人病院のデータベースに適したリストを取得する最良の方法

これについて議論するのに適切なフォーラムではない場合は、心からお詫び申し上げます。

基本的に、退役軍人病院のデータベースに適したリストを見つけようとしています。私が見つけた最も近いものは www.va.gov/ofcadmin/docs/CATB.pdf です。探している情報がすべて含まれているからです。

領域
住所
別の列の都市
別の列の郵便番号
州
施設番号 (StationID とも呼ばれます)
VISN
シンボル

そのPDFをCSVにエクスポートしようとしましたが、うまくいくのは完全な悪夢です。そのため、このタスクをどのように達成できるかについて誰かアイデアや洞察を持っているかどうか知りたいと思っていました.

export-to-csv data-extraction data-export pdf-extraction

2012-07-10T21:49:18.113

0 投票する

1 に答える

347 参照

ios - iOSがPDFからテキストを取得

こんにちは私は速読アプリに取り組んでいます、そして私はいくつかのヒントや提案を探しています。このアプリでは、さまざまな読み取り手法を使用する必要があります。これには、PDFからさまざまなサイズでテキストをフォーマットする必要があります。写真なしの自動スクロールなどのテクニック。誰かがこれを行う人をすでに知っていますか？または私のための例がありますか？

ios ios5 pdf pdf-generation pdf-extraction

2012-12-14T10:30:46.850

0 投票する

0 に答える

1304 参照

pdf - コードでチェックボックスを選択してもpdfboxが表示されない

PDFbox Java API を使用して PDF の値を入力しています。

テキストボックスの値を入力できます。How to check a check box in PDF-form using Java PDFBOX apiに示すように、チェックボックスに check() メソッドを使用すると、バックグラウンドで値が true に設定されますが、pdf を開いたときに反映されません。

チェックボックスは値なしでまだ空白です。

誰もこの問題を修正する方法を知っていますか?

pdf pdfbox pdflib pdf-extraction

2013-07-16T04:31:18.063

0 投票する

1 に答える

403 参照

perl - Perl エラー - 未定義の値で「getPageContent」を呼び出せませんか?

こんにちは、pdfファイルのコンテンツを抽出しようとしていますが、上記の問題に直面しています私のコードは

ここでエラー「getPageContent(1)」が表示されます。私のコードで何がうまくいかなかったのか

perl pdf pdf-extraction cam-pdf

2013-08-22T04:40:27.537

問題タブ [pdf-extraction]

Reference