10

Java ベースのApache Tikaフレームワークの C/C++ 代替を探しています。具体的には、ファイルのメタデータと構造化テキストの抽出をすべて 1 つのフレームワークで検索しています。いくつかのオンライン検索と閲覧の後、私が持っている最も近いものは、GNU libextractorと、ドキュメントを解析してテキスト データ (pdftoext、xls2csv ..etc) を抽出する個々のファイル フィルターの束です。

Apache の Tika に匹敵する優れたライブラリをお勧めできますか?

ありがとう

4

2 に答える 2

1

Tika にはネットワーク サーバー モードがあるので、いつでもそれを使用して Tika を起動し、C++ コードからリクエストを送信できますか?

あるいは、Tika には CLI モードがあるため、毎回新しい Tika プロセスを起動して、パイプからデータを読み取ることができます。

于 2011-06-04T06:12:24.443 に答える