問題タブ [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
6328 参照

java - Javaを使用してPDFをCSVに変換する

私はスタックオーバーフローと外側でほとんどのことを試しました

問題: 目次と表を含む PDF があります。テーブルとコンテンツも解析する必要があります。

Apis : https://github.com/tabulapdf/tabula-java 私が使用しtabula-javaているものは、一部のコンテンツを無視し、テーブル セル内のコンテンツが適切な方法で分離されていません。

私のPDFはこのようなコンテンツを持っています

変換する表コード:

tabula はコマンド ライン インターフェイスもサポート

-c,--columns <COLUMNS>列境界のX座標でセルを取得するタブラを使用してみました

しかし、問題は私のpdfコンテンツが動的であることです。つまり、テーブル サイズが変更されます。

スタックオーバーフローのこれらのリンクと、さらに多くのくぼみが私にとってはうまくいきました。

tabula-pyでPDFをCSVに変換するには?

コマンドラインからPDFからテーブルデータをCSVとして抽出する方法は?

JavaでPDFをExcelに変換

PDFファイルをCSVファイルに変換するには?

itext PDF から csv への変換

PDFテーブルを解析してCSV(Java)で表示

テーブルの内容を正しく読めないフォーマットされていないテキストを提供するpdfボックスを使用しました。

コンテンツやフォーマットを失うことなく、Java を使用してテーブル付きの pdf をcsv/excelに変換できます。

有料ライブラリを使用したくありません。

0 投票する
0 に答える
277 参照

python-3.x - Python 3.6: PDF テーブルからデータを抽出するとデータが乱れる

Tabula を使用して PDF テーブルからデータフレームを抽出しようとしています。データがごちゃごちゃになっていて、注文するのに苦労しています。私の構文が間違っている場所を誰か指摘できますか?

テーブルの画像と Python セッションの出力:

ここに画像の説明を入力
(画像をクリックすると拡大します)

私のPythonセッションの出力

コード: