Linuxでpdf/chm/djvuファイルを検索するのに役立つツールを書きたいです。それをどうやって進めるかについての指針はありますか?
主な問題は、これらすべてのファイルからのデータの読み取り/インポートです。これは C とシェル スクリプトで実行できますか?
Linuxでpdf/chm/djvuファイルを検索するのに役立つツールを書きたいです。それをどうやって進めるかについての指針はありますか?
主な問題は、これらすべてのファイルからのデータの読み取り/インポートです。これは C とシェル スクリプトで実行できますか?
djvu は画像圧縮形式であることに注意してください (「テキストの画像」、通常はスキャンの結果を圧縮するために最適化されています)。そのため、メタデータ (これは cdleary によって送信されたリンクが参照するものです) を除いて、またはドキュメントで最初に OCR を使用してテキストに変換する場合を除いて、テキストを検索することはできません。
コンテンツがスキャンされた記事/本である PDF の場合も同様です。
Beagleのプラグインはどうですか?
既に PDF を検索しますが、他のファイルの種類を追加できます。
関連するウィキペディアのページは次のとおりです: http://en.wikipedia.org/wiki/Beagle_(software)