問題タブ [pdf-scraping]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

137 問題

0 投票する

1 に答える

251 参照

pdf - PDFデータ抽出

スキャンした PDF 画像を取得し、必要なフィールドを強調表示して画像からデータを抽出する方法はありますか? 毎日何千もの不動産証書の PDF 画像をスキャンしており、データ入力プロセスを自動化できるようにしたいと考えています。私たちが直面している問題は、同じ行為は 2 つとないということです。

pdf pdf-scraping

2015-11-24T02:19:56.620

0 投票する

0 に答える

71 参照

pdf - 一見簡単そうに見える PDF 変換が適合の原因になっている

私は Tabula を使用して PDF を CSV ファイルに変換することに多くの成功を収めてきましたが、この特定の 1 つがあらゆる種類の問題を引き起こしています。ファイルはここにあります。

複数の行スパンが Tabula の問題を引き起こしているようです。Tabula がファイルを完全に変換するとは思わず、後処理のクリーンアップ (通常はいくつかの sed コマンド) を行う必要があると予想しますが、出発点となる CSV ファイルの作成にはまだ近づいていません。 . スプレッドシート、スプレッドシートなし、推測、列、および領域を試しましたが、成功しませんでした。何を試すべきかについて他に考えがある人はいますか？

2016-01-04T17:25:46.427

0 投票する

2 に答える

3028 参照

python - Pythonでテキストファイル内の特定のテキスト行を見つける方法は?

.txt ファイルを開いて特定の文字列を検索しようとしています。

python regex python-3.x python-3.5 pdf-scraping

2016-03-14T05:05:32.533

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-scraping]

pdf - PDFデータ抽出

pdf - 一見簡単そうに見える PDF 変換が適合の原因になっている

python - Pythonでテキストファイル内の特定のテキスト行を見つける方法は?

Reference