100ページのPDF内のどこかに指定されている約1200のクエリ(部品番号)のリストがあります。私がする必要があるのは、各クエリがどのページに表示されるかをPDFで記録することです。私はこれを行うための賢い方法を考えることができません。検索でこの検索を行うには5〜20時間かかるはずなので、誰かが5時間のマークの前に私に良いアイデアを教えてくれれば、それは素晴らしいことです!
1 に答える
2
プレーンテキストから(たとえば、正規表現を使用して)プログラムでコンテキスト内の「クエリ」が何であるかを判断できると仮定します。
pdftkを使用してPDFを異なるファイル(1ページに1ファイル)に分割できます
http://www.pdflabs.com/tools/pdftk-the-pdf-toolkit/
次に、次のようなpdf-to-textユーティリティを使用して、これらのファイルをテキストに変換します。
http://www.fileguru.com/PDF-To-TXT-Converter/download
またはこれ
そして最後に、お気に入りのプログラミング言語を使用して簡単なスクリプトを作成し、それらのファイルのどれに「クエリ」が含まれているかを判断します(どのようなファイルでも)。
于 2011-10-06T14:50:47.373 に答える