Add 50k train step model

Files changed (10) hide show

config.gin +1 -4
config.json +2 -2
convert_t5x_checkpoint_to_flax.py +44 -43
flax_model.msgpack +1 -1
model-info.txt +0 -0
pytorch_model.bin +1 -1
small_nl16.gin +1 -1
small_nl16_pretrain.gin +0 -1
train/{events.out.tfevents.1661710468.t1v-n-12f94ad0-w-0.60675.0.v2 → events.out.tfevents.1664039578.t1v-n-12f94ad0-w-0.2066226.0.v2} +2 -2
training_eval/pretrain_finnish/{events.out.tfevents.1661710468.t1v-n-12f94ad0-w-0.60675.1.v2 → events.out.tfevents.1664039578.t1v-n-12f94ad0-w-0.2066226.1.v2} +2 -2

config.gin CHANGED Viewed

@@ -2,7 +2,7 @@ from __gin__ import dynamic_registration
 import __main__ as train_script
 import seqio
 from t5x import adafactor
-from t5x.examples.scalable_t5 import network
 from t5x import gin_utils
 from t5x import models
 from t5x import partitioning
@@ -116,8 +116,6 @@ network.T5Config.mlp_dim = 2048
 network.T5Config.num_decoder_layers = 16
 network.T5Config.num_encoder_layers = 16
 network.T5Config.num_heads = 8
-network.T5Config.remat_policy = 'minimal'
-network.T5Config.scan_layers = True
 network.T5Config.vocab_size = 32128
 # Parameters for train_script.train:
@@ -135,7 +133,6 @@ train_script.train.total_steps = %TRAIN_STEPS
 train_script.train.train_dataset_cfg = @train/utils.DatasetConfig()
 train_script.train.train_eval_dataset_cfg = @train_eval/utils.DatasetConfig()
 train_script.train.trainer_cls = @trainer.Trainer
-train_script.train.use_gda = False
 train_script.train.use_hardware_rng = %USE_HARDWARE_RNG
 # Parameters for trainer.Trainer:

 import __main__ as train_script
 import seqio
 from t5x import adafactor
+from t5x.examples.t5 import network
 from t5x import gin_utils
 from t5x import models
 from t5x import partitioning
 network.T5Config.num_decoder_layers = 16
 network.T5Config.num_encoder_layers = 16
 network.T5Config.num_heads = 8
 network.T5Config.vocab_size = 32128
 # Parameters for train_script.train:
 train_script.train.train_dataset_cfg = @train/utils.DatasetConfig()
 train_script.train.train_eval_dataset_cfg = @train_eval/utils.DatasetConfig()
 train_script.train.trainer_cls = @trainer.Trainer
 train_script.train.use_hardware_rng = %USE_HARDWARE_RNG
 # Parameters for trainer.Trainer:

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/researchdisk/t5-small-nl16-finnish",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
@@ -26,7 +26,7 @@
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.21.2",
   "use_cache": true,
   "vocab_size": 32128
 }

 {
+  "_name_or_path": "./",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.22.1",
   "use_cache": true,
   "vocab_size": 32128
 }

convert_t5x_checkpoint_to_flax.py CHANGED Viewed

@@ -12,36 +12,37 @@ def convert_t5x_checkpoint_to_flax(t5x_checkpoint_path, config_name, flax_dump_f
     flax_model = FlaxT5ForConditionalGeneration(config=config)
     t5x_model = checkpoints.load_t5x_checkpoint(t5x_checkpoint_path)
-    split_mlp_wi = "wi_0" in t5x_model["target"]["encoder"]["encoder"]["mlp"]
     # Encoder
     for layer_index in range(config.num_layers):
         # Self-Attention
-        t5x_attention_key = t5x_model["target"]["encoder"]["encoder"]["attention"]["key"]["kernel"][:, layer_index, :, :]
-        t5x_attention_out = t5x_model["target"]["encoder"]["encoder"]["attention"]["out"]["kernel"][:, layer_index, :, :]
-        t5x_attention_query = t5x_model["target"]["encoder"]["encoder"]["attention"]["query"]["kernel"][:, layer_index, :, :]
-        t5x_attention_value = t5x_model["target"]["encoder"]["encoder"]["attention"]["value"]["kernel"][:, layer_index, :, :]
         ## Layer Normalization
-        t5x_attention_layer_norm = t5x_model["target"]["encoder"]["encoder"]["pre_attention_layer_norm"]["scale"][:, layer_index]
         if split_mlp_wi:
-            t5x_mlp_wi_0 = t5x_model["target"]["encoder"]["encoder"]["mlp"]["wi_0"]["kernel"][:, layer_index, :]
-            t5x_mlp_wi_1 = t5x_model["target"]["encoder"]["encoder"]["mlp"]["wi_1"]["kernel"][:, layer_index, :]
         else:
-            t5x_mlp_wi = t5x_model["target"]["encoder"]["encoder"]["mlp"]["wi"]["kernel"][:, layer_index, :]
-        t5x_mlp_wo = t5x_model["target"]["encoder"]["encoder"]["mlp"]["wo"]["kernel"][:, layer_index, :]
         ## Layer Normalization
-        t5x_mlp_layer_norm = t5x_model["target"]["encoder"]["encoder"]["pre_mlp_layer_norm"]["scale"][:, layer_index]
         # Assigning
-        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["k"]["kernel"] = t5x_attention_key.reshape(*t5x_attention_key.shape[:-2], -1)
-        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["o"]["kernel"] = t5x_attention_out.reshape(-1, t5x_attention_out.shape[-1])
-        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["q"]["kernel"] = t5x_attention_query.reshape(*t5x_attention_query.shape[:-2], -1)
-        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["v"]["kernel"] = t5x_attention_value.reshape(*t5x_attention_value.shape[:-2], -1)
         flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["layer_norm"]["weight"] = t5x_attention_layer_norm
@@ -55,8 +56,8 @@ def convert_t5x_checkpoint_to_flax(t5x_checkpoint_path, config_name, flax_dump_f
         flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["1"]["layer_norm"]["weight"] = t5x_mlp_layer_norm
     # Only for layer 0:
-    t5x_encoder_rel_embedding = t5x_model["target"]["encoder"]["encoder"]["relpos_bias"]["rel_embedding"].T
-    flax_model.params["encoder"]["block"]["0"]["layer"]["0"]["SelfAttention"]["relative_attention_bias"]["embedding"] = t5x_encoder_rel_embedding[:, 0, :]
     # Assigning
     t5x_encoder_norm = t5x_model["target"]["encoder"]["encoder_norm"]["scale"]
@@ -64,49 +65,50 @@ def convert_t5x_checkpoint_to_flax(t5x_checkpoint_path, config_name, flax_dump_f
     # Decoder
     for layer_index in range(config.num_decoder_layers):
         # Self-Attention
-        t5x_attention_key = t5x_model["target"]["decoder"]["decoder"]["self_attention"]["key"]["kernel"][:, layer_index, :, :]
-        t5x_attention_out = t5x_model["target"]["decoder"]["decoder"]["self_attention"]["out"]["kernel"][:, layer_index, :, :]
-        t5x_attention_query = t5x_model["target"]["decoder"]["decoder"]["self_attention"]["query"]["kernel"][:, layer_index, :, :]
-        t5x_attention_value = t5x_model["target"]["decoder"]["decoder"]["self_attention"]["value"]["kernel"][:, layer_index, :, :]
         ## Layer Normalization
-        t5x_pre_attention_layer_norm = t5x_model["target"]["decoder"]["decoder"]["pre_self_attention_layer_norm"]["scale"][:, layer_index]
         # Encoder-Decoder-Attention
-        t5x_enc_dec_attention_key = t5x_model["target"]["decoder"]["decoder"]["encoder_decoder_attention"]["key"]["kernel"][:, layer_index, :, :]
-        t5x_enc_dec_attention_out = t5x_model["target"]["decoder"]["decoder"]["encoder_decoder_attention"]["out"]["kernel"][:, layer_index, :, :]
-        t5x_enc_dec_attention_query = t5x_model["target"]["decoder"]["decoder"]["encoder_decoder_attention"]["query"]["kernel"][:, layer_index, :, :]
-        t5x_enc_dec_attention_value = t5x_model["target"]["decoder"]["decoder"]["encoder_decoder_attention"]["value"]["kernel"][:, layer_index, :, :]
         ## Layer Normalization
-        t5x_cross_layer_norm = t5x_model["target"]["decoder"]["decoder"]["pre_cross_attention_layer_norm"]["scale"][:, layer_index]
         # MLP
         if split_mlp_wi:
-            t5x_mlp_wi_0 = t5x_model["target"]["decoder"]["decoder"]["mlp"]["wi_0"]["kernel"][:, layer_index, :]
-            t5x_mlp_wi_1 = t5x_model["target"]["decoder"]["decoder"]["mlp"]["wi_1"]["kernel"][:, layer_index, :]
         else:
-            t5x_mlp_wi = t5x_model["target"]["decoder"]["decoder"]["mlp"]["wi"]["kernel"][:, layer_index, :]
-        t5x_mlp_wo = t5x_model["target"]["decoder"]["decoder"]["mlp"]["wo"]["kernel"][:, layer_index, :]
         ## Layer Normalization
-        tx5_mlp_layer_norm = t5x_model["target"]["decoder"]["decoder"]["pre_mlp_layer_norm"]["scale"][:, layer_index]
         # Assigning
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["k"]["kernel"] = t5x_attention_key.reshape(*t5x_attention_key.shape[:-2], -1)
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["o"]["kernel"] = t5x_attention_out.reshape(-1, t5x_attention_out.shape[-1])
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["q"]["kernel"] = t5x_attention_query.reshape(*t5x_attention_query.shape[:-2], -1)
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["v"]["kernel"] = t5x_attention_value.reshape(*t5x_attention_value.shape[:-2], -1)
         flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["layer_norm"]["weight"] = t5x_pre_attention_layer_norm
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["k"]["kernel"] = t5x_enc_dec_attention_key.reshape(*t5x_enc_dec_attention_key.shape[:-2], -1)
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["o"]["kernel"] = t5x_enc_dec_attention_out.reshape(-1, t5x_enc_dec_attention_out.shape[-1])
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["q"]["kernel"] = t5x_enc_dec_attention_query.reshape(*t5x_enc_dec_attention_query.shape[:-2], -1)
-        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["v"]["kernel"] = t5x_enc_dec_attention_value.reshape(*t5x_enc_dec_attention_value.shape[:-2], -1)
         flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["layer_norm"]["weight"] = t5x_cross_layer_norm
@@ -125,8 +127,8 @@ def convert_t5x_checkpoint_to_flax(t5x_checkpoint_path, config_name, flax_dump_f
     flax_model.params["decoder"]["final_layer_norm"]["weight"] = tx5_decoder_norm
     # Only for layer 0:
-    t5x_decoder_rel_embedding = t5x_model["target"]["decoder"]["decoder"]["relpos_bias"]["rel_embedding"].T
-    flax_model.params["decoder"]["block"]["0"]["layer"]["0"]["SelfAttention"]["relative_attention_bias"]["embedding"] = t5x_decoder_rel_embedding[:, 0, :]
     # Token Embeddings
     tx5_token_embeddings = t5x_model["target"]["token_embedder"]["embedding"]
@@ -158,5 +160,4 @@ if __name__ == "__main__":
     args = parser.parse_args()
     convert_t5x_checkpoint_to_flax(args.t5x_checkpoint_path, args.config_name, args.flax_dump_folder_path)
     convert_flax_to_pytorch(args.flax_dump_folder_path, args.flax_dump_folder_path)

     flax_model = FlaxT5ForConditionalGeneration(config=config)
     t5x_model = checkpoints.load_t5x_checkpoint(t5x_checkpoint_path)
+    split_mlp_wi = "wi_0" in t5x_model["target"]["encoder"]["layers_0"]["mlp"]
     # Encoder
     for layer_index in range(config.num_layers):
+        layer_name = f"layers_{str(layer_index)}"
         # Self-Attention
+        t5x_attention_key = t5x_model["target"]["encoder"][layer_name]["attention"]["key"]["kernel"]
+        t5x_attention_out = t5x_model["target"]["encoder"][layer_name]["attention"]["out"]["kernel"]
+        t5x_attention_query = t5x_model["target"]["encoder"][layer_name]["attention"]["query"]["kernel"]
+        t5x_attention_value = t5x_model["target"]["encoder"][layer_name]["attention"]["value"]["kernel"]
         ## Layer Normalization
+        t5x_attention_layer_norm = t5x_model["target"]["encoder"][layer_name]["pre_attention_layer_norm"]["scale"]
         if split_mlp_wi:
+            t5x_mlp_wi_0 = t5x_model["target"]["encoder"][layer_name]["mlp"]["wi_0"]["kernel"]
+            t5x_mlp_wi_1 = t5x_model["target"]["encoder"][layer_name]["mlp"]["wi_1"]["kernel"]
         else:
+            t5x_mlp_wi = t5x_model["target"]["encoder"][layer_name]["mlp"]["wi"]["kernel"]
+        t5x_mlp_wo = t5x_model["target"]["encoder"][layer_name]["mlp"]["wo"]["kernel"]
         ## Layer Normalization
+        t5x_mlp_layer_norm = t5x_model["target"]["encoder"][layer_name]["pre_mlp_layer_norm"]["scale"]
         # Assigning
+        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["k"]["kernel"] = t5x_attention_key
+        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["o"]["kernel"] = t5x_attention_out
+        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["q"]["kernel"] = t5x_attention_query
+        flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["v"]["kernel"] = t5x_attention_value
         flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["0"]["layer_norm"]["weight"] = t5x_attention_layer_norm
         flax_model.params["encoder"]["block"][str(layer_index)]["layer"]["1"]["layer_norm"]["weight"] = t5x_mlp_layer_norm
     # Only for layer 0:
+    t5x_encoder_rel_embedding = t5x_model["target"]["encoder"]["relpos_bias"]["rel_embedding"].T
+    flax_model.params["encoder"]["block"]["0"]["layer"]["0"]["SelfAttention"]["relative_attention_bias"]["embedding"] = t5x_encoder_rel_embedding
     # Assigning
     t5x_encoder_norm = t5x_model["target"]["encoder"]["encoder_norm"]["scale"]
     # Decoder
     for layer_index in range(config.num_decoder_layers):
+        layer_name = f"layers_{str(layer_index)}"
         # Self-Attention
+        t5x_attention_key = t5x_model["target"]["decoder"][layer_name]["self_attention"]["key"]["kernel"]
+        t5x_attention_out = t5x_model["target"]["decoder"][layer_name]["self_attention"]["out"]["kernel"]
+        t5x_attention_query = t5x_model["target"]["decoder"][layer_name]["self_attention"]["query"]["kernel"]
+        t5x_attention_value = t5x_model["target"]["decoder"][layer_name]["self_attention"]["value"]["kernel"]
         ## Layer Normalization
+        t5x_pre_attention_layer_norm = t5x_model["target"]["decoder"][layer_name]["pre_self_attention_layer_norm"]["scale"]
         # Encoder-Decoder-Attention
+        t5x_enc_dec_attention_key = t5x_model["target"]["decoder"][layer_name]["encoder_decoder_attention"]["key"]["kernel"]
+        t5x_enc_dec_attention_out = t5x_model["target"]["decoder"][layer_name]["encoder_decoder_attention"]["out"]["kernel"]
+        t5x_enc_dec_attention_query = t5x_model["target"]["decoder"][layer_name]["encoder_decoder_attention"]["query"]["kernel"]
+        t5x_enc_dec_attention_value = t5x_model["target"]["decoder"][layer_name]["encoder_decoder_attention"]["value"]["kernel"]
         ## Layer Normalization
+        t5x_cross_layer_norm = t5x_model["target"]["decoder"][layer_name]["pre_cross_attention_layer_norm"]["scale"]
         # MLP
         if split_mlp_wi:
+            t5x_mlp_wi_0 = t5x_model["target"]["decoder"][layer_name]["mlp"]["wi_0"]["kernel"]
+            t5x_mlp_wi_1 = t5x_model["target"]["decoder"][layer_name]["mlp"]["wi_1"]["kernel"]
         else:
+            t5x_mlp_wi = t5x_model["target"]["decoder"][layer_name]["mlp"]["wi"]["kernel"]
+        t5x_mlp_wo = t5x_model["target"]["decoder"][layer_name]["mlp"]["wo"]["kernel"]
         ## Layer Normalization
+        tx5_mlp_layer_norm = t5x_model["target"]["decoder"][layer_name]["pre_mlp_layer_norm"]["scale"]
         # Assigning
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["k"]["kernel"] = t5x_attention_key
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["o"]["kernel"] = t5x_attention_out
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["q"]["kernel"] = t5x_attention_query
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["SelfAttention"]["v"]["kernel"] = t5x_attention_value
         flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["0"]["layer_norm"]["weight"] = t5x_pre_attention_layer_norm
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["k"]["kernel"] = t5x_enc_dec_attention_key
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["o"]["kernel"] = t5x_enc_dec_attention_out
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["q"]["kernel"] = t5x_enc_dec_attention_query
+        flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["EncDecAttention"]["v"]["kernel"] = t5x_enc_dec_attention_value
         flax_model.params["decoder"]["block"][str(layer_index)]["layer"]["1"]["layer_norm"]["weight"] = t5x_cross_layer_norm
     flax_model.params["decoder"]["final_layer_norm"]["weight"] = tx5_decoder_norm
     # Only for layer 0:
+    t5x_decoder_rel_embedding = t5x_model["target"]["decoder"]["relpos_bias"]["rel_embedding"].T
+    flax_model.params["decoder"]["block"]["0"]["layer"]["0"]["SelfAttention"]["relative_attention_bias"]["embedding"] = t5x_decoder_rel_embedding
     # Token Embeddings
     tx5_token_embeddings = t5x_model["target"]["token_embedder"]["embedding"]
     args = parser.parse_args()
     convert_t5x_checkpoint_to_flax(args.t5x_checkpoint_path, args.config_name, args.flax_dump_folder_path)
     convert_flax_to_pytorch(args.flax_dump_folder_path, args.flax_dump_folder_path)

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d2c726083b92da996735a77026451a7e5b42627a81a0b01dbc34c3ff2002468
 size 735762207

 version https://git-lfs.github.com/spec/v1
+oid sha256:d82a40e2a628be30c18aec9a0e0a7dd7e73eef7ec43ec213ad0c883f616c1b69
 size 735762207

model-info.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b58f3924c39b22b631c2aac1eaa4fb74334d43a8460d34eb3308b8d9d0b32c8
 size 735867349

 version https://git-lfs.github.com/spec/v1
+oid sha256:94b61f6dc4f056da83ffa8f0786219a3eb1a297e88096524ed6a2c003200249b
 size 735867349

small_nl16.gin CHANGED Viewed

@@ -1,7 +1,7 @@
 # T5.1.1 Efficient small nl16 model.
 import seqio
-include 't5x/examples/scalable_t5/t5_1_1/base.gin' # imports vocab, optimizer and model.
 # ------------------- Network specification overrides --------------------------
 network.Transformer.config = @network.T5Config()

 # T5.1.1 Efficient small nl16 model.
 import seqio
+include 't5x/examples/t5/t5_1_1/base.gin' # imports vocab, optimizer and model.
 # ------------------- Network specification overrides --------------------------
 network.Transformer.config = @network.T5Config()

small_nl16_pretrain.gin CHANGED Viewed

@@ -12,7 +12,6 @@ include 't5x/configs/runs/pretrain.gin'
 # ------------------- Training specification overrides --------------------------
 train_script.train:
   eval_period = 10000
-  use_gda = False
 utils.SaveCheckpointConfig:
   period = 10000

 # ------------------- Training specification overrides --------------------------
 train_script.train:
   eval_period = 10000
 utils.SaveCheckpointConfig:
   period = 10000

train/{events.out.tfevents.1661710468.t1v-n-12f94ad0-w-0.60675.0.v2 → events.out.tfevents.1664039578.t1v-n-12f94ad0-w-0.2066226.0.v2} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc35fbcf1aae134d37c8b1835b980a3a231015174e2f0151a381a3158e01a5df
-size 83260

 version https://git-lfs.github.com/spec/v1
+oid sha256:efe928bebef1c949dca5e29eec1f2b4b26d042761ef3f6aa77f029a6d9538624
+size 16734

training_eval/pretrain_finnish/{events.out.tfevents.1661710468.t1v-n-12f94ad0-w-0.60675.1.v2 → events.out.tfevents.1664039578.t1v-n-12f94ad0-w-0.2066226.1.v2} RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c362fea4a3c4e8f1ff7f459bbaec9e8224c189528fd13acd10026b714773969
-size 65359

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb328b235587d5a36430d35207227a5c66091fc9e2b52bcb127b089b112215ca
+size 9244