bashからpdfのコンテンツを抽出する方法はありますか? (悲しいことに、「1010.3423.pdf」のようなラベルが付いた学術論文の大きなフォルダーがあります。最初の数行をグーグルで検索するなど、より賢明な名前を付けるための bash スクリプトを作成したいと思います。)
4590 次
3 に答える
4
pdftotextがあり、pdf ファイルからタイトルと著者を取得するのに役立ちます。これを使用してグーグルで検索したり、自分でファイル名を生成したりできます。
于 2012-12-10T04:44:44.830 に答える
4
pdftotext を試してテキストを抽出しますか? http://en.wikipedia.org/wiki/Pdftotext
于 2012-12-10T04:47:11.577 に答える
1
pdf2xmlを使用すると、より詳細な情報が得られます。昨年、このようなユーティリティを探していました。とりわけ、pdf2xmlが最適だと思います。
于 2012-12-10T04:52:27.283 に答える