Pythonを使用して、元のpdfファイルのセットをスクレイピングしています。彼らにテキストを送ってもらったので、行末を出すのに苦労しました。行区切りが何であるかわかりませんでした。問題は、まだわからないことです。
で'\n'
はないか、そうではないと思います'\r\n'
。しかし、これらの特殊文字の 1 つを分離することができました。私は文字通りそれをメモリに持っており、 を呼び出すことmy_str.replace(eol, '')
で、ファイルの 1 つからこれらすべての文字を削除できます。
だから私の質問は自由回答です。ユニコードなどに関しては少し迷っています。シリアル化してから読み込むなど、ばかげたことに頼ることなく、ファイル内のこの文字を特定するにはどうすればよいでしょうか? おそらくコードとして参照できる方法はありますか?私は、Python が実際に何であるかを生成することができません。それを印刷したり、呼び出したりunicode(special_eol)
しても、改行として機能的に使用されている文字だけが表示されます。
助けてください!ありがとう、明らかな何かが欠けている場合は申し訳ありません。