8

bashからpdfのコンテンツを抽出する方法はありますか? (悲しいことに、「1010.3423.pdf」のようなラベルが付いた学術論文の大きなフォルダーがあります。最初の数行をグーグルで検索するなど、より賢明な名前を付けるための bash スクリプトを作成したいと思います。)

4

3 に答える 3

4

pdftotextがあり、pdf ファイルからタイトルと著者を取得するのに役立ちます。これを使用してグーグルで検索したり、自分でファイル名を生成したりできます。

于 2012-12-10T04:44:44.830 に答える
4

pdftotext を試してテキストを抽出しますか? http://en.wikipedia.org/wiki/Pdftotext

于 2012-12-10T04:47:11.577 に答える
1

pdf2xmlを使用すると、より詳細な情報が得られます。昨年、このようなユーティリティを探していました。とりわけ、pdf2xmlが最適だと思います。

于 2012-12-10T04:52:27.283 に答える