問題タブ [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDFをテキストに変換するためのPythonモジュール
PDFファイルをテキストに変換するPythonモジュールはありますか?Activestateで見つかったpypdfを使用するコードを1つ試しましたが、生成されたテキストの間にスペースがなく、役に立たなかった。
screen-scraping - スクリーンスクレーパーはどのように機能しますか?
人々がこれらのプログラムを書いているのをいつも聞いており、彼らが何をしているのかは知っていますが、実際にはどのようにそれを行っているのでしょうか? 私は一般的な概念を探しています。
pdf - 議会討論の PDF の光学式文字認識
契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。
問題は、これらのファイルのほとんどが 2 列形式になっていることです。
サンプルプロトコル http://sert.homedns.org/img/btp12001.png
次の質問に対するあなたの回答をぜひお読みください。
- OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
- どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?
どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!
更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。
宜しくお願いします、
Cetin Sert
html - PDFをHTMLに変換するにはどうすればよいですか?
PDFをHTMLに変換するために、一般的な言語でどのような優れたライブラリがありますか?
pdf - PDFファイルを素敵なテーブルに変換する
私はこのPDFファイルを5列に並べています。
私はStackOverflow(そしてGoogledを狂ったように)を調べて調べ、すべての解決策を試しました(Adobe Acrobat自体を試す最後の手段を含む)。
ただし、何らかの理由で、これらの5つの列をcsv/xls形式で取得できません。配置する必要があるためです。通常、それらをエクスポートすると、形式がひどくなり、すべてのエントリが1行ずつ配置され、データが失われます。
http://www.2shared.com/document/PagE4A1T/ex1.html
上記のファイルの抜粋へのリンクは次のとおりですが、私は本当にイライラしていて、オプションが不足しています。
linux - PDF ファイルから R へのデータの読み取り
それも可能ですか!?!
データベースにインポートする必要があるレガシー レポートが多数あります。ただし、それらはすべてpdf形式です。R
PDFを読めるパッケージはありますか? それともコマンドラインツールに任せるべきでしょうか?
レポートは Excel で作成されてから pdf 化されているため、規則的な構造になっていますが、多くの空白の「セル」があります。
python - Pythonを使用してPDFのテーブルで作業する
私はpdfファイルに取り組んでいます。そのpdfにはいくつかのテーブルがあります。
PDFに記載されているテーブル名によると、Pythonを使用してそのテーブルからデータを取得したかったのです。
私はhtml、xlmの解析に取り組んできましたが、pdfを使ったことはありません。
Pythonを使用してpdfからテーブルを取得する方法を教えてもらえますか?