desktop-search - pdf、chm、および djvu ファイルのデスクトップ検索ユーティリティ

Question

Linuxでpdf/chm/djvuファイルを検索するのに役立つツールを書きたいです。それをどうやって進めるかについての指針はありますか？

主な問題は、これらすべてのファイルからのデータの読み取り/インポートです。これは C とシェルスクリプトで実行できますか?

score 1 · Accepted Answer

Trackerは Ubuntu 8.04 に同梱されています -- これは Beagle からの重要な切り替えであり、ユーザーはリソース (CPU) を大量に消費し、十分な結果が得られなかったと考えていました。pdf と chm の両方にインデックスを付け、このバグレポートによると、 djvu にもインデックスを付けます。

score 1 · Accepted Answer

djvu は画像圧縮形式であることに注意してください (「テキストの画像」、通常はスキャンの結果を圧縮するために最適化されています)。そのため、メタデータ (これは cdleary によって送信されたリンクが参照するものです) を除いて、またはドキュメントで最初に OCR を使用してテキストに変換する場合を除いて、テキストを検索することはできません。

コンテンツがスキャンされた記事/本である PDF の場合も同様です。

score 0 · Accepted Answer

Beagleのプラグインはどうですか？

既に PDF を検索しますが、他のファイルの種類を追加できます。

関連するウィキペディアのページは次のとおりです: http://en.wikipedia.org/wiki/Beagle_(software)

desktop-search - pdf、chm、および djvu ファイルのデスクトップ検索ユーティリティ

3 に答える 3

Related

Reference