問題タブ [pdf-scraping]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 問題

0 投票する

13 に答える

417454 参照

python - PDFをテキストに変換するためのPythonモジュール

PDFファイルをテキストに変換するPythonモジュールはありますか？Activestateで見つかったpypdfを使用するコードを1つ試しましたが、生成されたテキストの間にスペースがなく、役に立たなかった。

python pdf text-extraction pdf-scraping

cnu

2008-08-25T04:44:06.090

0 投票する

5 に答える

9491 参照

pdf - C# または従来の ASP (VBScript) を使用して PDF からテキストを抽出するための適切な方法は何ですか?

PDF からテキストを抽出するための適切なライブラリはありますか? 必要があれば喜んで支払います。

C# または従来の ASP (VBScript) で動作するものが理想的であり、PDF からページを分離できる必要もあります。

この質問には、特にpdftotextなどの興味深いものがいくつかありましたが、可能であれば、外部コマンドラインアプリの呼び出しを避けたいと思います。

pdf text-extraction pdf-scraping

Mark Biek

2008-09-05T20:55:39.767

0 投票する

9 に答える

22307 参照

screen-scraping - スクリーンスクレーパーはどのように機能しますか?

人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。

screen-scraping web-scraping html-content-extraction pdf-scraping console-scraping

Micah

2008-10-01T03:10:54.737

0 投票する

4 に答える

452 参照

pdf - 議会討論の PDF の光学式文字認識

契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。

問題は、これらのファイルのほとんどが 2 列形式になっていることです。

サンプルプロトコル http://sert.homedns.org/img/btp12001.png

次の質問に対するあなたの回答をぜひお読みください。

OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?

どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!

更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。

宜しくお願いします、
Cetin Sert

pdf ocr text-extraction layout-extraction pdf-scraping

2009-07-09T14:59:44.620

0 投票する

9 に答える

22181 参照

html - PDFをHTMLに変換するにはどうすればよいですか？

PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか？

html pdf pdf-scraping

2009-10-28T17:52:54.513

0 投票する

1 に答える

699 参照

pdf - PDFファイルを素敵なテーブルに変換する

私はこのPDFファイルを5列に並べています。

私はStackOverflow（そしてGoogledを狂ったように）を調べて調べ、すべての解決策を試しました（Adobe Acrobat自体を試す最後の手段を含む）。

ただし、何らかの理由で、これらの5つの列をcsv/xls形式で取得できません。配置する必要があるためです。通常、それらをエクスポートすると、形式がひどくなり、すべてのエントリが1行ずつ配置され、データが失われます。

http://www.2shared.com/document/PagE4A1T/ex1.html

上記のファイルの抜粋へのリンクは次のとおりですが、私は本当にイライラしていて、オプションが不足しています。

pdf text pdf-scraping

2011-03-21T12:23:20.403

0 投票する

5 に答える

22801 参照

linux - PDF ファイルから R へのデータの読み取り

それも可能ですか!?!

データベースにインポートする必要があるレガシーレポートが多数あります。ただし、それらはすべてpdf形式です。RPDFを読めるパッケージはありますか? それともコマンドラインツールに任せるべきでしょうか?

レポートは Excel で作成されてから pdf 化されているため、規則的な構造になっていますが、多くの空白の「セル」があります。

linux r pdf scrape pdf-scraping

2012-02-07T23:46:47.867

0 投票する

4 に答える

12675 参照

python - Pythonを使用してPDFのテーブルで作業する

私はpdfファイルに取り組んでいます。そのpdfにはいくつかのテーブルがあります。
PDFに記載されているテーブル名によると、Pythonを使用してそのテーブルからデータを取得したかったのです。

私はhtml、xlmの解析に取り組んできましたが、pdfを使ったことはありません。
Pythonを使用してpdfからテーブルを取得する方法を教えてもらえますか?

python pdf pdf-scraping

2012-03-20T07:42:03.747

1 2 3 4 5 6 7 8 9 10