複数の PDF があり、最初のページの特定の領域からテキストを抽出したいと考えています。したがって、PDF 内のテキストの境界ボックスの座標がある場合、コマンド ラインを使用してそのテキストを抽出するにはどうすればよいでしょうか。
少し調べてみたところ、PDFMiner と PDFBox でこれができることがわかりました。しかし、PDFMiner の文書化は非常に不十分です。
PDFMinerを使用してこれを行う方法を教えてもらえますか? または、他の解決策を提案できますか?
PS: Linux ターミナルを使用しています。