python - Pythonを使用して、特殊なeol文字を見たときに認識する方法は?

翻译自：https://stackoverflow.com/questions/18997829 2013-09-25T06:33:56.887

485 次

Pythonを使用して、元のpdfファイルのセットをスクレイピングしています。彼らにテキストを送ってもらったので、行末を出すのに苦労しました。行区切りが何であるかわかりませんでした。問題は、まだわからないことです。

で'\n'はないか、そうではないと思います'\r\n'。しかし、これらの特殊文字の 1 つを分離することができました。私は文字通りそれをメモリに持っており、を呼び出すことmy_str.replace(eol, '')で、ファイルの 1 つからこれらすべての文字を削除できます。

だから私の質問は自由回答です。ユニコードなどに関しては少し迷っています。シリアル化してから読み込むなど、ばかげたことに頼ることなく、ファイル内のこの文字を特定するにはどうすればよいでしょうか? おそらくコードとして参照できる方法はありますか？私は、Python が実際に何であるかを生成することができません。それを印刷したり、呼び出したりunicode(special_eol)しても、改行として機能的に使用されている文字だけが表示されます。

助けてください！ありがとう、明らかな何かが欠けている場合は申し訳ありません。

python - Pythonを使用して、特殊なeol文字を見たときに認識する方法は?

1 に答える 1

Related

Reference