問題タブ [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
13 に答える
417454 参照

python - PDFをテキストに変換するためのPythonモジュール

PDFファイルをテキストに変換するPythonモジュールはありますか?Activestateで見つかったpypdfを使用するコードを1つ試しましたが、生成されたテキストの間にスペースがなく、役に立たなかった。

0 投票する
5 に答える
9491 参照

pdf - C# または従来の ASP (VBScript) を使用して PDF からテキストを抽出するための適切な方法は何ですか?

PDF からテキストを抽出するための適切なライブラリはありますか? 必要があれば喜んで支払います。

C# または従来の ASP (VBScript) で動作するものが理想的であり、PDF からページを分離できる必要もあります。

この質問には、特にpdftotextなどの興味深いものがいくつかありましたが、可能であれば、外部コマンドライン アプリの呼び出しを避けたいと思います。

0 投票する
9 に答える
22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

0 投票する
4 に答える
452 参照

pdf - 議会討論の PDF の光学式文字認識

契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。

問題は、これらのファイルのほとんどが 2 列形式になっていることです。

サンプルプロトコル http://sert.homedns.org/img/btp12001.png

次の質問に対するあなたの回答をぜひお読みください。

  1. OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
  2. どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?

どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!

更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。

宜しくお願いします、
Cetin Sert

0 投票する
9 に答える
22181 参照

html - PDFをHTMLに変換するにはどうすればよいですか?

PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?

0 投票する
1 に答える
699 参照

pdf - PDFファイルを素敵なテーブルに変換する

私はこのPDFファイルを5列に並べています。

私はStackOverflow(そしてGoogledを狂ったように)を調べて調べ、すべての解決策を試しました(Adobe Acrobat自体を試す最後の手段を含む)。

ただし、何らかの理由で、これらの5つの列をcsv/xls形式で取得できません。配置する必要があるためです。通常、それらをエクスポートすると、形式がひどくなり、すべてのエントリが1行ずつ配置され、データが失われます。

http://www.2shared.com/document/PagE4A1T/ex1.html

上記のファイルの抜粋へのリンクは次のとおりですが、私は本当にイライラしていて、オプションが不足しています。

0 投票する
5 に答える
22801 参照

linux - PDF ファイルから R へのデータの読み取り

それも可能ですか!?!

データベースにインポートする必要があるレガシー レポートが多数あります。ただし、それらはすべてpdf形式です。RPDFを読めるパッケージはありますか? それともコマンドラインツールに任せるべきでしょうか?

レポートは Excel で作成されてから pdf 化されているため、規則的な構造になっていますが、多くの空白の「セル」があります。

0 投票する
4 に答える
12675 参照

python - Pythonを使用してPDFのテーブルで作業する

私はpdfファイルに取り組んでいます。そのpdfにはいくつかのテーブルがあります。
PDFに記載されているテーブル名によると、Pythonを使用してそのテーブルからデータを取得したかったのです。

私はhtml、xlmの解析に取り組んできましたが、pdfを使ったことはありません。
Pythonを使用してpdfからテーブルを取得する方法を教えてもらえますか?