BERT を使用してモデルをトレーニングしようとしています。BERT パラメーターについては、独自のデータセットを使用してパラメーターを微調整できることを願っています。
トレーニング プロセスを高速化するために、Google Cloud プラットフォームと TPU を使用しています。
私はこのチュートリアルに従っていますが、次の行を置き換えました:
置換:
tf.estimator.Estimator(
model_fn=model_fn_par,
config=run_config_par,
params={"batch_size": BATCH_SIZE})
と:
tf.contrib.tpu.TPUEstimator(
model_fn=model_fn_par,
config = run_config_par,
use_tpu=FLAGS.use_tpu, train_batch_size = BATCH_SIZE,predict_batch_size=BATCH_SIZE)
置換:
run_config_par = tf.estimator.RunConfig(
model_dir=OUTPUT_DIR,
save_summary_steps=SAVE_SUMMARY_STEPS,
save_checkpoints_steps=SAVE_CHECKPOINTS_STEPS)
と:
run_config_par = tf.contrib.tpu.RunConfig(
master=master,
evaluation_master=master,
model_dir=FLAGS.model_dir,
session_config=tf.ConfigProto(
allow_soft_placement=True, log_device_placement=True),
tpu_config=tf.contrib.tpu.TPUConfig(FLAGS.iterations,
FLAGS.num_shards))
また、次のパラメーターを定義しました。
my_project = MY_PROJECT_NAME
my_zone = 'us-central1-b'
cluster_resolver = tf.contrib.cluster_resolver.TPUClusterResolver(
tpu=[MY_TPU_NAME],
zone=my_zone,
project=my_project)
master = cluster_resolver.get_master()
次の行を実行している間:
estimator_par.train(input_fn=train_input_fn_par, max_steps=num_train_steps)
ノートブックは次のアドレスへの接続を 120 回試行しますが、成功せず、タイムアウト エラーが返されます。
Querying Tensorflow master (grpc://10.240.1.2:8470) for TPU system metadata.
TPU の場合はインスタンスを作成し、ノートブックのランタイム タイプも TPU に設定しました。ノートブックを使用して TPU に接続できない理由を知っている人はいますか?