問題タブ [tabula]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Javaを使用してPDFをCSVに変換する
私はスタックオーバーフローと外側でほとんどのことを試しました
問題: 目次と表を含む PDF があります。テーブルとコンテンツも解析する必要があります。
Apis :
https://github.com/tabulapdf/tabula-java
私が使用しtabula-java
ているものは、一部のコンテンツを無視し、テーブル セル内のコンテンツが適切な方法で分離されていません。
私のPDFはこのようなコンテンツを持っています
変換する表コード:
tabula はコマンド ライン インターフェイスもサポート
-c,--columns <COLUMNS>
列境界のX座標でセルを取得するタブラを使用してみました
しかし、問題は私のpdfコンテンツが動的であることです。つまり、テーブル サイズが変更されます。
スタックオーバーフローのこれらのリンクと、さらに多くのくぼみが私にとってはうまくいきました。
コマンドラインからPDFからテーブルデータをCSVとして抽出する方法は?
テーブルの内容を正しく読めないフォーマットされていないテキストを提供するpdfボックスを使用しました。
コンテンツやフォーマットを失うことなく、Java を使用してテーブル付きの pdf をcsv/excelに変換できます。
有料ライブラリを使用したくありません。