java - Apache Tika の C/C++ 代替

Question

Java ベースのApache Tikaフレームワークの C/C++ 代替を探しています。具体的には、ファイルのメタデータと構造化テキストの抽出をすべて 1 つのフレームワークで検索しています。いくつかのオンライン検索と閲覧の後、私が持っている最も近いものは、GNU libextractorと、ドキュメントを解析してテキストデータ (pdftoext、xls2csv ..etc) を抽出する個々のファイルフィルターの束です。

Apache の Tika に匹敵する優れたライブラリをお勧めできますか?

ありがとう

score 1 · Accepted Answer

Tika にはネットワークサーバーモードがあるので、いつでもそれを使用して Tika を起動し、C++ コードからリクエストを送信できますか?

あるいは、Tika には CLI モードがあるため、毎回新しい Tika プロセスを起動して、パイプからデータを読み取ることができます。

java - Apache Tika の C/C++ 代替

2 に答える 2

Related

Reference