while True ループで Web サイトをスクレイピングし、np.savez を使用してすべてのデータをファイルに保存しています。npz ファイルを処理したいのですが、ファイルの更新がコピーよりも高速です。これが私のコードです:
while True:
time.sleep(1.5)
for post in new:
all_posts.append(post)
np.savez('records.npz', posts)
new = other_site.get_next()
最初はスクレイピングしていたデータを処理するためにファイルをコピーするだけでしたが、今ではファイルが大きすぎて毎回破損しています。このプロセスを最初からやり直して、保存頻度を減らしてコピーする時間を増やすこともできますが、書き込んだデータを回復できる方法があるかどうか知りたいです。私が持っていた別のアイデアは、ファイルの末尾を切り捨てて、まだ npz ファイルのように見え、python がそれを読み取れるようにすることでしたが、それが可能かどうかはわかりません。