2

ドキュメント ベースとして使用するローカル ファイル システムに大量の PDF ファイルがあり、これらのファイルのインデックスを作成したいと考えています。私はしたいと思います :

  1. PDF ファイルの内容を解析してキーワードを取得します。
  2. 最も関連性の高いキーワードを選択して要約を作成します。
  3. 適切なファイルにリンクされたエントリを含むいくつかのキーワードの静的 HTML ページを作成します。

私の質問は次のとおりです。

  • ジョブ全体を実行する既存のツールはありますか?
  • PDF ファイルのコンテンツを解析し、(単語サイズで) フィルター処理し、単語をカウントするための最も適切なツールは何ですか?
  • Perlswish-epdfgrepを使用してスクリプトを作成することを検討しています。役に立つ他のツールを知っていますか?
4

1 に答える 1