1

PdfTextExtractor.GetTextFromPageを使用しているときに、テキストをテキストドキュメントに抽出しましたが、各エンドラインの後のすべての空白が欠落していました。MS Wordから作成された単純な3行のPDFファイルでこの問題を再現しようとしましたが、失敗しました。各エンドラインが余分なスペースに置き換えられました。

以下はPDFファイルのPrtScnです

PDF

以下はメモ帳で表示されるテキストです

February 04, 2013Patient:  Ima . TestD.O.B.:   6/14/1970Chart #:   2004-00001SSN:  555-55-5555Dr. :Enclosed you will find the report for Ima . Test.

同じ行で終わる単語は、次の行で始まる単語で区切られていませんでした。文字列を解析したいときに、これが問題を引き起こすと思いました。

4

1 に答える 1

1

以下は、notepad++によって表示される同じテキストです

February 04, 2013
Patient:  Ima . Test
D.O.B.:   6/14/1970
Chart #:   2004-00001
SSN:  555-55-5555
Dr. :
Enclosed you will find the report for Ima . Test.

メモ帳がエンドラインを認識しないことを知らなかったので、同じテキストをコピーして質問ボックスに貼り付けると、各行が分離されました。うまくいけば、これにより、同じ問題に遭遇した人の時間を少し節約できます。

于 2013-02-06T15:58:47.687 に答える