PDFファイルの解析にこのPDFParserを使用しています。突然、ファイルの 1 つが単語の空白で解析されました。たとえば、
月曜日
、しかしそれは次のように解析されました
月曜日
また
チキン
なので
チキン
PDFリーダーからテキストを選択して別の場所にコピーすると、これらの奇妙な空白はありません。ライブラリにバグがありますか、それとも pdf に隠し文字がありますか。どのように修理できますか?
編集:週替わりメニューへのリンクがあります。この PDF ファイルはチェコ語で書かれているため、たとえば word があります。
ポンデリー
次のようになります。
ポンデリ
また
Kuřecí
次のようにする必要があります。
クシェチ
これらすべての空白がアクセント付きの文字の周りにあることがわかりますが、常にそうとは限りません.
今週以降に変更される可能性があり、新しいメニューにはこれらの空白がなくなる可能性があることを警告します.