問題タブ [pdftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - pdftools::pdf_text がすべてのスペースを認識しない
私は R を使用しており、pdf ファイルからバイアスロンの結果を抽出しています。このプロセスの最初に、ほとんどの場合正常に機能している pdf_text 関数 (pdftools パッケージから) を使用してきました。ただし、一部のスペースが消えているように見えるファイルがあります。次に例を示します。
PDF ファイルからの抜粋は、動作の良い (緑) スポットと動作の悪い (赤) スポットを示しています。
緑のものは「70 0」に変換されますが、赤のものは「70」に変換されます。コピーしてテキストエディタに貼り付けることで、両方にスペースがあることを確認できます。ざっと見てみると、最初の数字 (撮影時間のランク) が 1 桁しかない場合に問題が発生することがわかります。
この動作の原因は何ですか?簡単な修正方法はありますか?
r - R: PDF から日付と数字を抽出する
NTSB から数千の PDF ファイルから適切な情報を抽出するのに本当に苦労しています (特定の日付と数字)。これらの PDF は OCR する必要はなく、各レポートの長さとレイアウト情報はほぼ同じです。
事故の日時 (最初のページ) と、パイロットの年齢や飛行経験などのその他の情報を抽出する必要があります。私が試したことは、いくつかのファイルに対してジョブを実行しますが、使用しているコードが不十分に記述されているため、各ファイルに対しては機能しません。
私が得た主な問題は、事故の日時を抽出しようとしているときです。ここで行ったようにリストの使用を避けることで、その正確な情報を抽出することは可能ですか?
r - 複数の PDF ファイルから構造化データ テーブルにテキストを抽出する
私はこのプラットフォームに慣れていないので、誰かが私を助けてくれることを願っています.
pdftools ライブラリを使用して、いくつかの pdf ファイルを Rstudio にインポートしました。次に、このテキストの構造化された列を作成したいと思います。構造を正しく理解できないようです。
これは、私がインポートしたファイルを 1 つ追加した例です。データ テーブルに黄色の網掛け線を作成したいと考えています。
これが、私が最終的に望んでいる結果です。
以下のコードを入力しましたが、データ テーブルに入れることができません。
これは私が得る結果です:
これを解決する最も簡単な方法を知っている人はいますか?