PdfTextExtractor.GetTextFromPageを使用しているときに、テキストをテキストドキュメントに抽出しましたが、各エンドラインの後のすべての空白が欠落していました。MS Wordから作成された単純な3行のPDFファイルでこの問題を再現しようとしましたが、失敗しました。各エンドラインが余分なスペースに置き換えられました。
以下はPDFファイルのPrtScnです
以下はメモ帳で表示されるテキストです
February 04, 2013Patient: Ima . TestD.O.B.: 6/14/1970Chart #: 2004-00001SSN: 555-55-5555Dr. :Enclosed you will find the report for Ima . Test.
同じ行で終わる単語は、次の行で始まる単語で区切られていませんでした。文字列を解析したいときに、これが問題を引き起こすと思いました。