python - エンコーディングを適用して書き込む前にデータが異なるかどうかを確認する

Question

次のデータをスクレイピングする Web スクレーパーがあります。

TESTDATA
DATA:DATA
Data £9500
Data £930
Data £500
Data £2250
Data £930
Data £500
Data £2250

DATATEST
DATA:DATA
Data £95001
Data £9302
Data £5003
Data £22504
Data £9305
Data £5006
Data £22507

実行中:print full_end戻り値:

[u'TESTDATA', 'DATA:DATA', 'Data £9500', 'Data £930', 'Data £500', 'Data £2250', 'Data £930', 'Data £500', 'Data £2250', '\r', DATATEST', 'DATA:DATA', 'Data £95001', 'Data £9302', 'Data £5003', 'Data £22504', 'Data £9305', 'Data £5006', 'Data £22507']

実行中:print repr(full_end)戻り値:

u"TESTDATA\nDATA:DATA\nData £9500\nData £930\nData £500\nData £2250\nData £930\nData £500\nData £2250\n\r\nDATATEST\nDATA:DATA\nData £95001\nData £9302\nData £5003\nData £22504\nData £9305\nData £5006\nData £22507"

実行中:print repr('\r\n'.join(full_end).strip())戻り値:

u"TESTDATA\r\nDATA:DATA\r\nData £9500\r\nData £930\r\nData £500\r\nData £2250\r\nData £930\r\nData £500\r\nData £2250\r\n\r\r\nDATATEST\r\nDATA:DATA\r\nData £95001\r\nData £9302\r\nData £5003\r\nData £22504\r\nData £9305\r\nData £5006\r\nData £22507"

画像: http://i.imgur.com/Qe0TE5Y.png

次のスクリプトを使用して

with open('FULL_DATA.txt','r') as full_end_datafile:
    full_end_datafile_read = full_end_datafile.read()
    encoded_data = '\n'.join(full_end).encode("Latin-1")
    if full_end_datafile_read == encoded_data:
        encoded_data = "" 
    else:
        with open('FULL_DATA.txt','w') as full_end_datafile:
            full_end_datafile.write('\n'.join(full_end).encode("Latin-1"))

注: メモ帳でファイルを編集すると、各データセット/グループ間に 1 行が表示され、メモ帳 ++ では各データセット/グループ間に 2 行が表示されます

書き込みオプションと読み取りオプションを変更する`rb`と`wb`、次のようになります。

データが同じであると認識せず、ファイルを再保存します

誰でもこれを修正する方法を知っていますか?

前もって感謝します-Hyflex

score 1 · Accepted Answer

これは、テキストファイルを操作するときに Python が行う行末変換が原因で発生します。Windows の EOL は 2 文字 (CRとLF) ですが、Unix/Linuxは 2 文字LFしか使用しません。Windows のメモ帳は Windows の規則のみを認識しますが、Notepad++ は両方を認識します。最初の画像では、Python は現在の OS 規則です。2 番目のイメージでは、バイナリデータを渡しているだけです (そして、Unix/Linux の規則が適用されます)。

score 1 · Accepted Answer

ファイルを開くときは、U フラグを使用します。

with open('FULL_DATA.txt','Ur')

これは「ユニバーサル EOL」を意味し、すべての異なる EOL ( など\r\n) をに変換し\nます。EOL の違いは、比較が失敗する理由の 1 つです。他にもあるかもしれませんが、まずはこれから。

score 0 · Accepted Answer

メモ帳の改行は必要ありません'\r'か?

full_end_datafile.write('\r\n'.join(full_end).encode("Latin-1"))

比較を行う前に、削除して\rみてください。\n目に見えないものを気にしないのであれば、余分な空白を削除するために文字列で .strip() を実行することも役立ちます。

python - エンコーディングを適用して書き込む前にデータが異なるかどうかを確認する

注: メモ帳でファイルを編集すると、各データセット/グループ間に 1 行が表示され、メモ帳 ++ では各データセット/グループ間に 2 行が表示されます

書き込みオプションと読み取りオプションを変更するrbとwb、次のようになります。

3 に答える 3

Related

Reference

書き込みオプションと読み取りオプションを変更する`rb`と`wb`、次のようになります。