perl - PDF ファイルの索引付けとキーワードの要約の生成

翻译自：https://stackoverflow.com/questions/39027338 2016-08-18T20:54:31.827

199 次

2

ドキュメントベースとして使用するローカルファイルシステムに大量の PDF ファイルがあり、これらのファイルのインデックスを作成したいと考えています。私はしたいと思います：

PDF ファイルの内容を解析してキーワードを取得します。
最も関連性の高いキーワードを選択して要約を作成します。
適切なファイルにリンクされたエントリを含むいくつかのキーワードの静的 HTML ページを作成します。

私の質問は次のとおりです。

ジョブ全体を実行する既存のツールはありますか?
PDF ファイルのコンテンツを解析し、(単語サイズで) フィルター処理し、単語をカウントするための最も適切なツールは何ですか?
Perl、swish-e、pdfgrepを使用してスクリプトを作成することを検討しています。役に立つ他のツールを知っていますか?

1 に答える 1