python - 何千もの PDF ファイルのテーブルをスクレイピングする方法は?

翻译自：https://stackoverflow.com/questions/25125178 2014-08-04T18:27:09.533

11239 次

それぞれ 1 ページのみで構成され、同じ構造を示す約 1,500 の PDF があります (例については、http://files.newsnetz.ch/extern/interactive/downloads/BAG_15m_kzh_2012_de.pdf を参照してください)。

私が探しているのは、これらすべてのファイルを (可能であればローカルで) 反復処理し、テーブルの実際の内容を抽出する方法です (CSV として、SQLite DB に保存されます)。

Node.jsでこれをやりたいのですが、そのようなものを解析するための適切なライブラリが見つかりませんでした. どれか知っていますか？

Node.js で不可能な場合は、より良い方法が利用できる場合、Python でコーディングすることもできます。

1 に答える 1