pdftotextを使用してpdfから作成されたテキストファイルからpythonを使用してテキストを抽出しています。これは 2000 個のファイルのうちの 1 つであり、この特定のファイルでは、キーワードの行が EU で終わっています。行の残りの部分は肉眼では空白であり、次の行も同様です。
プログラムは通常、行末の末尾の空白を取り除き、後続の空白行を無視します。
この例では、「EU.」の間の textfile で、同様に html で印刷したときに表示される空白を保存しています (Simile Exhibit)。
コマンドラインにも出力しましたが、ここに aacute の文字列が表示されます。[?]
これに対処する明白な方法は、accute を検索して置き換えることだと思いました。私はコンパイルステートメントでそれをやろうとしましたが、着信テキストをデコードする順列で遊んだことがあります。
奇妙なことに、"\255" を印刷すると、aacute が表示されず、o Grave が表示されます。
この奇妙なエラーの組み合わせにより、私は何か基本的なことを誤解しているようです。これを解き始める方法のヒントはありますか?
どうもありがとう。