ドキュメント ベースとして使用するローカル ファイル システムに大量の PDF ファイルがあり、これらのファイルのインデックスを作成したいと考えています。私はしたいと思います :
- PDF ファイルの内容を解析してキーワードを取得します。
- 最も関連性の高いキーワードを選択して要約を作成します。
- 適切なファイルにリンクされたエントリを含むいくつかのキーワードの静的 HTML ページを作成します。
私の質問は次のとおりです。
- ジョブ全体を実行する既存のツールはありますか?
- PDF ファイルのコンテンツを解析し、(単語サイズで) フィルター処理し、単語をカウントするための最も適切なツールは何ですか?
Perl
、swish-e
、pdfgrep
を使用してスクリプトを作成することを検討しています。役に立つ他のツールを知っていますか?