私はしばらくの間、PoDoFo C ++ライブラリを使用してテキストと行を(それぞれの座標で)抽出しようとしてきました。しかし、私にはこれを行う方法がありません。
これは私がこれまでに持っているものです:
#include <iostream>
#include <stdio.h>
#include <vector>
#include <podofo/podofo.h>
using namespace PoDoFo;
using namespace std;
int main( int argc, char* argv[] )
{
const char* filename = "hello.pdf";
PdfVecObjects *x = new PdfVecObjects();
PdfParser parser(x, filename);
parser.ParseFile("hello.pdf");
for (TIVecObjects obj = x->begin(); obj != x->end(); obj++){
PdfObject * a = x->RemoveObject(obj);
// THIS IS MY PROBLEM VVVVVVVVVV
cout << a->Reference().ToString() << endl;
}
return 0;
}
しかし、これは私に信じられないほど基本的な情報を与えるだけです(オブジェクト番号のようです)
DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
DEBUG: Size=12
DEBUG: Reading numbers: 0 12
DEBUG: Reading XRef Section: 0 with 12 Objects.
1 0 R
2 0 R
3 0 R
4 0 R
5 0 R
6 0 R
7 0 R
8 0 R
9 0 R
10 0 R
11 0 R
オブジェクトの座標を印刷したいのですが、それが線かテキストか。テキストの場合は、テキストも印刷できるようにしたいと思います。私よりもこのライブラリをよく知っている人は、これを修正するために何ができるかを知っていますか?