pere
/

t5-parliament-categorisation

Model card Files Files and versions Community

pere commited on Apr 11, 2022

Commit

81de315

•

1 Parent(s): dd620f6

eval updated

Browse files

Files changed (10) hide show

__pycache__/my_metrics.cpython-38.pyc +0 -0
__pycache__/tasks.cpython-38.pyc +0 -0
eval.py +4 -4
eval_base.sh +2 -2
eval_categorisation_base.gin +1 -1
finetune_categorisation_base.gin +2 -2
log/config.gin +89 -0
log/eval_results_t1v-n-7b23714e-w-0.jsonl +2 -0
log/model-info.txt +285 -0
tasks.py +2 -1

__pycache__/my_metrics.cpython-38.pyc ADDED Viewed

Binary file (464 Bytes). View file

__pycache__/tasks.cpython-38.pyc CHANGED Viewed

Binary files a/__pycache__/tasks.cpython-38.pyc and b/__pycache__/tasks.cpython-38.pyc differ

eval.py CHANGED Viewed

@@ -181,15 +181,15 @@ def evaluate(
     now = datetime.now()
     logtime = now.strftime("%d-%m-%Y %H:%M:%S")
-    if not os.path.exists("log"):
-        os.makedirs("log")
-    logname ="./log/"+"eval_results_"+socket.gethostname()+".jsonl"
     output = {}
     output["model"] = restore_checkpoint_cfg.path
     output["eval_date"] = logtime
     output["split"] = dataset_cfg.split
     output["result"] = all_metrics.result()[dataset_cfg.mixture_or_task_name]
     with jsonlines.open(logname, mode="a") as writer:

     now = datetime.now()
     logtime = now.strftime("%d-%m-%Y %H:%M:%S")
+    logname = output_dir+"eval_results_"+socket.gethostname()+".jsonl"
     output = {}
     output["model"] = restore_checkpoint_cfg.path
+    output["task"] = dataset_cfg.mixture_or_task_name
     output["eval_date"] = logtime
     output["split"] = dataset_cfg.split
+    output["feature_length"] = dataset_cfg.task_feature_lengths
+    output["eval_batch_size"] = dataset_cfg.batch_size
     output["result"] = all_metrics.result()[dataset_cfg.mixture_or_task_name]
     with jsonlines.open(logname, mode="a") as writer:

eval_base.sh CHANGED Viewed

@@ -1,5 +1,5 @@
 PROJECT_DIR=${HOME}"/models/t5-parliament-categorisation"
-EVAL_OUTPUT_DIR="gs://nb-t5x/eval/"
 T5X_DIR="../../t5x"  # directory where the t5x is cloned.
 CHECKPOINT_PATH="gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000"
 export PYTHONPATH=${PROJECT_DIR}
@@ -8,4 +8,4 @@ python3 eval.py \
   --gin_search_paths=${PROJECT_DIR} \
   --gin_file="eval_categorisation_base.gin" \
   --gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\" \
-  --gin.EVAL_OUTPUT_DIR=\"${EVAL_OUTPUT_DIR}\" \

 PROJECT_DIR=${HOME}"/models/t5-parliament-categorisation"
+#EVAL_OUTPUT_DIR="gs://nb-t5x/eval/"
 T5X_DIR="../../t5x"  # directory where the t5x is cloned.
 CHECKPOINT_PATH="gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000"
 export PYTHONPATH=${PROJECT_DIR}
   --gin_search_paths=${PROJECT_DIR} \
   --gin_file="eval_categorisation_base.gin" \
   --gin.CHECKPOINT_PATH=\"${CHECKPOINT_PATH}\" \
+#  --gin.EVAL_OUTPUT_DIR=\"${EVAL_OUTPUT_DIR}\" \

eval_categorisation_base.gin CHANGED Viewed

@@ -9,7 +9,7 @@ from t5x import utils
 include "t5x/examples/t5/mt5/base.gin"
 CHECKPOINT_PATH = %gin.REQUIRED  # passed via commandline
-EVAL_OUTPUT_DIR = %gin.REQUIRED  # passed via commandline
 DROPOUT_RATE = 0.0  # unused boilerplate
 MIXTURE_OR_TASK_NAME = "categorise"

 include "t5x/examples/t5/mt5/base.gin"
 CHECKPOINT_PATH = %gin.REQUIRED  # passed via commandline
+EVAL_OUTPUT_DIR = "./log/"
 DROPOUT_RATE = 0.0  # unused boilerplate
 MIXTURE_OR_TASK_NAME = "categorise"

finetune_categorisation_base.gin CHANGED Viewed

@@ -18,8 +18,8 @@ DROPOUT_RATE = 0.1
 RANDOM_SEED = 0
 #Fixing a small error
-infer_eval/utils.DatasetConfig.task_feature_lengths = TASK_FEATURE_LENGTHS
 # Pere: Only necessary if we load a t5 model. We can start with an t5x model here
 # `LOSS_NORMALIZING_FACTOR`: When fine-tuning a model that was pre-trained

 RANDOM_SEED = 0
 #Fixing a small error
+infer_eval/utils.DatasetConfig:
+  task_feature_lengths = %TASK_FEATURE_LENGTHS
 # Pere: Only necessary if we load a t5 model. We can start with an t5x model here
 # `LOSS_NORMALIZING_FACTOR`: When fine-tuning a model that was pre-trained

log/config.gin ADDED Viewed

	@@ -0,0 +1,89 @@

+from __gin__ import dynamic_registration
+import __main__ as eval_script
+import seqio
+from t5.data import mixtures
+from t5x import adafactor
+from t5x.examples.t5 import network
+from t5x import models
+from t5x import partitioning
+from t5x import utils
+import tasks
+# Macros:
+# ==============================================================================
+CHECKPOINT_PATH = 'gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000'
+DROPOUT_RATE = 0.0
+EVAL_OUTPUT_DIR = './log/'
+LABEL_SMOOTHING = 0.0
+LOSS_NORMALIZING_FACTOR = None
+MIXTURE_OR_TASK_NAME = 'categorise'
+MODEL = @models.EncoderDecoderModel()
+OPTIMIZER = @adafactor.Adafactor()
+VOCABULARY = @seqio.SentencePieceVocabulary()
+Z_LOSS = 0.0001
+# Parameters for adafactor.Adafactor:
+# ==============================================================================
+adafactor.Adafactor.decay_rate = 0.8
+adafactor.Adafactor.logical_factor_rules = \
+    @adafactor.standard_logical_factor_rules()
+adafactor.Adafactor.step_offset = 0
+# Parameters for utils.DatasetConfig:
+# ==============================================================================
+utils.DatasetConfig.batch_size = 32
+utils.DatasetConfig.mixture_or_task_name = %MIXTURE_OR_TASK_NAME
+utils.DatasetConfig.seed = 42
+utils.DatasetConfig.shuffle = False
+utils.DatasetConfig.split = 'validation'
+utils.DatasetConfig.task_feature_lengths = {'inputs': 512, 'targets': 2}
+# Parameters for models.EncoderDecoderModel:
+# ==============================================================================
+models.EncoderDecoderModel.input_vocabulary = %VOCABULARY
+models.EncoderDecoderModel.label_smoothing = %LABEL_SMOOTHING
+models.EncoderDecoderModel.loss_normalizing_factor = %LOSS_NORMALIZING_FACTOR
+models.EncoderDecoderModel.module = @network.Transformer()
+models.EncoderDecoderModel.optimizer_def = %OPTIMIZER
+models.EncoderDecoderModel.output_vocabulary = %VOCABULARY
+models.EncoderDecoderModel.z_loss = %Z_LOSS
+# Parameters for eval_script.evaluate:
+# ==============================================================================
+eval_script.evaluate.dataset_cfg = @utils.DatasetConfig()
+eval_script.evaluate.model = %MODEL
+eval_script.evaluate.output_dir = %EVAL_OUTPUT_DIR
+eval_script.evaluate.partitioner = @partitioning.PjitPartitioner()
+eval_script.evaluate.restore_checkpoint_cfg = @utils.RestoreCheckpointConfig()
+# Parameters for partitioning.PjitPartitioner:
+# ==============================================================================
+partitioning.PjitPartitioner.num_partitions = 2
+# Parameters for utils.RestoreCheckpointConfig:
+# ==============================================================================
+utils.RestoreCheckpointConfig.mode = 'specific'
+utils.RestoreCheckpointConfig.path = %CHECKPOINT_PATH
+# Parameters for seqio.SentencePieceVocabulary:
+# ==============================================================================
+seqio.SentencePieceVocabulary.sentencepiece_model_file = \
+    'gs://t5-data/vocabs/mc4.250000.100extra/sentencepiece.model'
+# Parameters for network.T5Config:
+# ==============================================================================
+network.T5Config.dropout_rate = %DROPOUT_RATE
+network.T5Config.dtype = 'bfloat16'
+network.T5Config.emb_dim = 768
+network.T5Config.head_dim = 64
+network.T5Config.logits_via_embedding = False
+network.T5Config.mlp_activations = ('gelu', 'linear')
+network.T5Config.mlp_dim = 2048
+network.T5Config.num_decoder_layers = 12
+network.T5Config.num_encoder_layers = 12
+network.T5Config.num_heads = 12
+network.T5Config.vocab_size = 250112
+# Parameters for network.Transformer:
+# ==============================================================================
+network.Transformer.config = @network.T5Config()

log/eval_results_t1v-n-7b23714e-w-0.jsonl CHANGED Viewed

@@ -3,3 +3,5 @@
 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 17:40:27", "task": "categorise", "feature_length": null, "split": "validation", "result": {"accuracy": 86.33333333333333, "f1_macro": 86.33090327169275}}
 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 18:07:14", "task": "categorise", "feature_length": null, "split": "validation", "result": {"accuracy": 86.33333333333333, "f1_macro": 86.33090327169275}}
 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 18:31:25", "task": "categorise", "feature_length": {"inputs": 512, "targets": 2}, "split": "validation", "result": {"accuracy": 84.83333333333334, "f1_macro": 84.82911919977771}}

 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 17:40:27", "task": "categorise", "feature_length": null, "split": "validation", "result": {"accuracy": 86.33333333333333, "f1_macro": 86.33090327169275}}
 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 18:07:14", "task": "categorise", "feature_length": null, "split": "validation", "result": {"accuracy": 86.33333333333333, "f1_macro": 86.33090327169275}}
 {"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "08-04-2022 18:31:25", "task": "categorise", "feature_length": {"inputs": 512, "targets": 2}, "split": "validation", "result": {"accuracy": 84.83333333333334, "f1_macro": 84.82911919977771}}
+{"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "11-04-2022 06:48:47", "split": "validation", "result": {"accuracy": 84.83333333333334}}
+{"model": "gs://nb-t5x/eval_norwegian_NCC_2_000_000/checkpoint_2005000", "eval_date": "11-04-2022 07:01:50", "split": "validation", "feature_length": {"inputs": 512, "targets": 2}, "eval_batch_size": 32, "result": {"accuracy": 84.83333333333334, "f1_macro": 84.82911919977771}}

log/model-info.txt ADDED Viewed

	@@ -0,0 +1,285 @@

+Variable decoder/decoder_norm/scale                                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_0/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_0/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_0/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_0/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_0/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_0/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_0/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_0/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_0/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_0/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_0/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_0/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_0/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_0/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_1/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_1/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_1/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_1/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_1/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_1/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_1/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_1/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_1/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/encoder_decoder_attention/key/kernel                           size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/encoder_decoder_attention/out/kernel                           size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_10/encoder_decoder_attention/query/kernel                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/encoder_decoder_attention/value/kernel                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/mlp/wi_0/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_10/mlp/wi_1/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_10/mlp/wo/kernel                                                  size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_10/pre_cross_attention_layer_norm/scale                           size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_10/pre_mlp_layer_norm/scale                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_10/pre_self_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_10/self_attention/key/kernel                                      size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/self_attention/out/kernel                                      size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_10/self_attention/query/kernel                                    size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_10/self_attention/value/kernel                                    size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/encoder_decoder_attention/key/kernel                           size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/encoder_decoder_attention/out/kernel                           size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_11/encoder_decoder_attention/query/kernel                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/encoder_decoder_attention/value/kernel                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/mlp/wi_0/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_11/mlp/wi_1/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_11/mlp/wo/kernel                                                  size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_11/pre_cross_attention_layer_norm/scale                           size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_11/pre_mlp_layer_norm/scale                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_11/pre_self_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_11/self_attention/key/kernel                                      size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/self_attention/out/kernel                                      size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_11/self_attention/query/kernel                                    size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_11/self_attention/value/kernel                                    size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_2/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_2/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_2/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_2/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_2/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_2/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_2/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_2/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_2/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_3/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_3/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_3/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_3/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_3/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_3/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_3/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_3/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_3/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_4/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_4/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_4/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_4/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_4/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_4/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_4/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_4/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_4/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_5/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_5/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_5/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_5/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_5/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_5/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_5/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_5/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_5/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_6/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_6/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_6/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_6/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_6/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_6/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_6/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_6/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_6/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_7/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_7/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_7/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_7/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_7/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_7/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_7/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_7/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_7/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_8/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_8/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_8/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_8/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_8/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_8/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_8/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_8/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_8/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/encoder_decoder_attention/key/kernel                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/encoder_decoder_attention/out/kernel                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_9/encoder_decoder_attention/query/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/encoder_decoder_attention/value/kernel                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_9/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable decoder/layers_9/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable decoder/layers_9/pre_cross_attention_layer_norm/scale                            size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_9/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_9/pre_self_attention_layer_norm/scale                             size 768          shape (embed=768)                              partition spec (None,)
+Variable decoder/layers_9/self_attention/key/kernel                                       size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/self_attention/out/kernel                                       size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable decoder/layers_9/self_attention/query/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/layers_9/self_attention/value/kernel                                     size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable decoder/logits_dense/kernel                                                      size 192086016    shape (embed=768, vocab=250112)                partition spec (None, 'model')
+Variable decoder/relpos_bias/rel_embedding                                                size 384          shape (heads=12, relpos_buckets=32)            partition spec ('model', None)
+Variable encoder/encoder_norm/scale                                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_0/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_0/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_0/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_0/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_0/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_0/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_0/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_0/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_0/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_1/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_1/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_1/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_1/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_1/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_1/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_1/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_1/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_1/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_10/attention/key/kernel                                           size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_10/attention/out/kernel                                           size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_10/attention/query/kernel                                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_10/attention/value/kernel                                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_10/mlp/wi_0/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_10/mlp/wi_1/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_10/mlp/wo/kernel                                                  size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_10/pre_attention_layer_norm/scale                                 size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_10/pre_mlp_layer_norm/scale                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_11/attention/key/kernel                                           size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_11/attention/out/kernel                                           size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_11/attention/query/kernel                                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_11/attention/value/kernel                                         size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_11/mlp/wi_0/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_11/mlp/wi_1/kernel                                                size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_11/mlp/wo/kernel                                                  size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_11/pre_attention_layer_norm/scale                                 size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_11/pre_mlp_layer_norm/scale                                       size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_2/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_2/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_2/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_2/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_2/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_2/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_2/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_2/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_2/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_3/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_3/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_3/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_3/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_3/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_3/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_3/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_3/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_3/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_4/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_4/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_4/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_4/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_4/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_4/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_4/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_4/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_4/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_5/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_5/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_5/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_5/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_5/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_5/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_5/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_5/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_5/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_6/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_6/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_6/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_6/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_6/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_6/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_6/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_6/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_6/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_7/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_7/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_7/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_7/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_7/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_7/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_7/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_7/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_7/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_8/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_8/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_8/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_8/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_8/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_8/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_8/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_8/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_8/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_9/attention/key/kernel                                            size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_9/attention/out/kernel                                            size 589824       shape (joined_kv=768, embed=768)               partition spec ('model', None)
+Variable encoder/layers_9/attention/query/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_9/attention/value/kernel                                          size 589824       shape (embed=768, joined_kv=768)               partition spec (None, 'model')
+Variable encoder/layers_9/mlp/wi_0/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_9/mlp/wi_1/kernel                                                 size 1572864      shape (embed=768, mlp=2048)                    partition spec (None, 'model')
+Variable encoder/layers_9/mlp/wo/kernel                                                   size 1572864      shape (mlp=2048, embed=768)                    partition spec ('model', None)
+Variable encoder/layers_9/pre_attention_layer_norm/scale                                  size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/layers_9/pre_mlp_layer_norm/scale                                        size 768          shape (embed=768)                              partition spec (None,)
+Variable encoder/relpos_bias/rel_embedding                                                size 384          shape (heads=12, relpos_buckets=32)            partition spec ('model', None)
+Variable token_embedder/embedding                                                         size 192086016    shape (vocab=250112, embed=768)                partition spec ('model', None)
+Total number of parameters: 582401280
+Variable step                                                                             size 1            shape ()                                       partition spec None

tasks.py CHANGED Viewed

@@ -2,6 +2,7 @@
 import functools
 import seqio
 import tensorflow_datasets as tfds
 from t5.evaluation import metrics
 from t5.data import preprocessors
@@ -59,7 +60,7 @@ seqio.TaskRegistry.add(
       categorise_preprocessor,
       seqio.preprocessors.tokenize_and_append_eos,
     ],
-    metric_fns=[metrics.accuracy],
     output_features=DEFAULT_OUTPUT_FEATURES,
 )

 import functools
 import seqio
+import my_metrics
 import tensorflow_datasets as tfds
 from t5.evaluation import metrics
 from t5.data import preprocessors
       categorise_preprocessor,
       seqio.preprocessors.tokenize_and_append_eos,
     ],
+    metric_fns=[metrics.accuracy,my_metrics.f1_macro],
     output_features=DEFAULT_OUTPUT_FEATURES,
 )