Java ベースのApache Tikaフレームワークの C/C++ 代替を探しています。具体的には、ファイルのメタデータと構造化テキストの抽出をすべて 1 つのフレームワークで検索しています。いくつかのオンライン検索と閲覧の後、私が持っている最も近いものは、GNU libextractorと、ドキュメントを解析してテキスト データ (pdftoext、xls2csv ..etc) を抽出する個々のファイル フィルターの束です。
Apache の Tika に匹敵する優れたライブラリをお勧めできますか?
ありがとう