このファイル ( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf ) を iText で解析したいと思います。問題は、タグ付けされていないため、XML ファイルを取得できないことです。そこからテキストを抽出することにしました。たとえば、最初の行は次のようになると思いました。
1\specialCharWJC:PLAYOFFS CANADA\specialCharTSN+\specialCharM.W....\specialChar19:30\specialChar21:57\specialChar5133
最初の行で抽出したテキストは
1 WJC:PLAYOFFS CANADA TSN+ M.W.... 19:30 21:57 5133
を使用してテキストを抽出しました:
PdfReader reader = new PdfReader(filename);
String str = PdfTextExtractor.getTextFromPage(reader, 1);
PDF ビューアは、CANADA が 3 列目ではなく 2 列目にあることをどのように認識していますか。
私の現在の解決策は、各列のテキストを決定できるhttp://www.idrsolutions.com/online-pdf-to-html5-converter/を使用してpdfファイルをhtml5に変換することです。
ご返信ありがとうございます