0

状況

私はPHPで書かれたウェブサイトを持っています。

PHP では、同じ Web サイトなどにアップロードされた pdf ファイル内のテキストを抽出できます。

tabula-java github リポジトリを見つけました。

それで、問題は何ですか?

タブラ用のMacアプリを試しました。テーブル データを変換する前に、pdf の特定のセクションを強調表示する必要があることに気付きました。

しかし、それは私が達成したいことではありません。バックグラウンドでオンデマンドでタブラを実行したい。私のウェブサイトがファイルのアップロードを受け取り、特定の条件が満たされたときに、何らかの方法でタブラをサービスとして呼び出し、非構造化データをフィードしてから、集計されたデータを取得したいと考えています。

どうすればこれを行うことができますか?

4

1 に答える 1

0

1 つの方法は、 tabula-extractorコマンド ライン コマンドをラップして、結果をアプリケーションに返すことです。

たとえば、R では、tabulizerパッケージはこのように機能します。

于 2016-05-02T13:21:39.070 に答える