問題タブ [tabula]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

254 問題

0 投票する

2 に答える

6328 参照

java - Javaを使用してPDFをCSVに変換する

私はスタックオーバーフローと外側でほとんどのことを試しました

問題: 目次と表を含む PDF があります。テーブルとコンテンツも解析する必要があります。

Apis : https://github.com/tabulapdf/tabula-java 私が使用しtabula-javaているものは、一部のコンテンツを無視し、テーブルセル内のコンテンツが適切な方法で分離されていません。

私のPDFはこのようなコンテンツを持っています

変換する表コード:

tabula はコマンドラインインターフェイスもサポート

-c,--columns <COLUMNS>列境界のX座標でセルを取得するタブラを使用してみました

しかし、問題は私のpdfコンテンツが動的であることです。つまり、テーブルサイズが変更されます。

スタックオーバーフローのこれらのリンクと、さらに多くのくぼみが私にとってはうまくいきました。

tabula-pyでPDFをCSVに変換するには?

コマンドラインからPDFからテーブルデータをCSVとして抽出する方法は?

JavaでPDFをExcelに変換

PDFファイルをCSVファイルに変換するには？

itext PDF から csv への変換

PDFテーブルを解析してCSV(Java)で表示

テーブルの内容を正しく読めないフォーマットされていないテキストを提供するpdfボックスを使用しました。

コンテンツやフォーマットを失うことなく、Java を使用してテーブル付きの pdf をcsv/excelに変換できます。

有料ライブラリを使用したくありません。

java csv pdf tabula

2019-02-05T12:08:20.187

0 投票する

0 に答える

277 参照

python-3.x - Python 3.6: PDF テーブルからデータを抽出するとデータが乱れる

Tabula を使用して PDF テーブルからデータフレームを抽出しようとしています。データがごちゃごちゃになっていて、注文するのに苦労しています。私の構文が間違っている場所を誰か指摘できますか?

テーブルの画像と Python セッションの出力:

^{(画像をクリックすると拡大します)}

コード：

python-3.x dataframe pdf tabula

2019-04-06T21:46:20.473

1 2 3 4 5 6 7 8 9 10