java - タグなしのPDFファイルをiTextで解析する方法

翻译自：https://stackoverflow.com/questions/21355363 2014-01-25T19:43:09.303

1153 次

このファイル ( http://www.bbm.ca/_documents/top_30_tv_programs_english/2011/nat01032011.pdf ) を iText で解析したいと思います。問題は、タグ付けされていないため、XML ファイルを取得できないことです。そこからテキストを抽出することにしました。たとえば、最初の行は次のようになると思いました。

1\specialCharWJC:PLAYOFFS CANADA\specialCharTSN+\specialCharM.W....\specialChar19:30\specialChar21:57\specialChar5133

最初の行で抽出したテキストは

1 WJC:PLAYOFFS CANADA TSN+ M.W.... 19:30 21:57 5133

を使用してテキストを抽出しました：

PdfReader reader = new PdfReader(filename);
String str = PdfTextExtractor.getTextFromPage(reader, 1);

PDF ビューアは、CANADA が 3 列目ではなく 2 列目にあることをどのように認識していますか。

私の現在の解決策は、各列のテキストを決定できるhttp://www.idrsolutions.com/online-pdf-to-html5-converter/を使用してpdfファイルをhtml5に変換することです。

ご返信ありがとうございます

2 に答える 2