bash - bashからpdfのコンテンツを抽出する方法はありますか?

Question

bashからpdfのコンテンツを抽出する方法はありますか? (悲しいことに、「1010.3423.pdf」のようなラベルが付いた学術論文の大きなフォルダーがあります。最初の数行をグーグルで検索するなど、より賢明な名前を付けるための bash スクリプトを作成したいと思います。)

score 4 · Accepted Answer

pdftotextがあり、pdf ファイルからタイトルと著者を取得するのに役立ちます。これを使用してグーグルで検索したり、自分でファイル名を生成したりできます。

score 4 · Accepted Answer

4

pdftotext を試してテキストを抽出しますか? http://en.wikipedia.org/wiki/Pdftotext

于 2012-12-10T04:47:11.577 に答える

score 1 · Accepted Answer

pdf2xmlを使用すると、より詳細な情報が得られます。昨年、このようなユーティリティを探していました。とりわけ、pdf2xmlが最適だと思います。

3 に答える 3