問題タブ [pdf-scraping]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - PDFデータ抽出
スキャンした PDF 画像を取得し、必要なフィールドを強調表示して画像からデータを抽出する方法はありますか? 毎日何千もの不動産証書の PDF 画像をスキャンしており、データ入力プロセスを自動化できるようにしたいと考えています。私たちが直面している問題は、同じ行為は 2 つとないということです。
pdf - 一見簡単そうに見える PDF 変換が適合の原因になっている
私は Tabula を使用して PDF を CSV ファイルに変換することに多くの成功を収めてきましたが、この特定の 1 つがあらゆる種類の問題を引き起こしています。ファイルはここにあります。
複数の行スパンが Tabula の問題を引き起こしているようです。Tabula がファイルを完全に変換するとは思わず、後処理のクリーンアップ (通常はいくつかの sed コマンド) を行う必要があると予想しますが、出発点となる CSV ファイルの作成にはまだ近づいていません。 . スプレッドシート、スプレッドシートなし、推測、列、および領域を試しましたが、成功しませんでした。何を試すべきかについて他に考えがある人はいますか?
python - Pythonでテキストファイル内の特定のテキスト行を見つける方法は?
.txt ファイルを開いて特定の文字列を検索しようとしています。