App Engineバルクローダー(Pythonランタイム)を使用して、エンティティをデータストアに一括アップロードしています。私がアップロードしているデータは独自の形式で保存されているので、bulkload_config.py
それを中間のpython辞書に変換するために独自のコネクタ(に登録)によって実装しました。
import google.appengine.ext.bulkload import connector_interface
class MyCustomConnector(connector_interface.ConnectorInterface):
....
#Overridden method
def generate_import_record(self, filename, bulkload_state=None):
....
yeild my_custom_dict
このニュートラルなPythonディクショナリをデータストアエンティティに変換するには、YAMLで定義したカスタムのインポート後関数を使用します。
def feature_post_import(input_dict, entity_instance, bulkload_state):
....
return [all_entities_to_put]
注:関数で使用entity_instance, bulkload_state
していませんfeature_post_import
。(に基づいてinput_dict
)新しいデータストアエンティティを作成し、それらを返しています。
今、すべてがうまくいきます。ただし、データの一括読み込みのプロセスには時間がかかりすぎるようです。たとえば、1 GB(〜1,000,000エンティティ)のデータには約20時間かかります。バルクロードプロセスのパフォーマンスを改善するにはどうすればよいですか。私は何かが足りないのですか?
appcfg.pyで使用するパラメーターのいくつかは(スレッドあたり10エンティティのバッチサイズの10スレッド)です。
リンクされたGoogleAppEngine Pythonグループの投稿: http://groups.google.com/group/google-appengine-python/browse_thread/thread/4c8def071a86c840
更新:一括読み込みプロセスのパフォーマンスをテストするためentities
に、「テスト」を読み込みましたKind
。これentity
は非常に単純FloatProperty
ですが、それらを一括ロードするのに同じ時間がかかりましたentities
。
バルクローダーのパラメーター、、、を変更して、rps_limit
さらにbandwidth_limit
スループットhttp_limit
が得られるかどうかを確認します。