私はアプリケーションでバックエンドのクローラーを実行しており、毎日いくつかの Web サイトでデータをマイニングしています。
クロールする Web サイトごとにエンティティを作成し、文字列 ID の大きなリストを格納します。
- 概算は、エンティティごとに約2.000です。
- 1 日あたり約1000エンティティ。
私が今それを行う方法は、インデックス化されていない ndb.StringProperty() を繰り返すことです。
3 日間実行した後、データストア ストレージの 70% を消費しました。
次に何ができるでしょうか?それらを圧縮されたjsonとして保存しますか?
それらをブロブストアに保存し、毎回ブロブなどを読み取りますか?
他の何か?代替案?