Upload 10 files

Browse files

Files changed (11) hide show

.gitattributes +1 -0
config.json +33 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
sentencepiece.bpe.model +3 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +57 -0
trainer_state.json +734 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "XLMRobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 8194,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.54.0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40576216be508b60a07f78be41168b70e5fa9b2b3468a1e5e0b2678b07632f7c
+size 2271071852

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6635b999b9b2d9d9174e91167e1e81c4a1aaf5d072405c9af8fa4f093715373
+size 4542376393

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d786454ce1e7e7869f5655206348d395d5a6eb0fd681a671734ab85f58b0569d
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a95b7af946de7e74370f93554fb888fdac796ea31906357beeb4ab42a9f2cc4
+size 1000

sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
+size 5069051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bf8afbfd11306bd872018c53bfdf2e160a56f8edbcf49933324404791c148d3
+size 17082900

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "return_tensors": false,
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,734 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.1359452956130453,
+  "eval_steps": 500,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0013594529561304532,
+      "grad_norm": 2.6843507289886475,
+      "learning_rate": 2.9959624247202926e-05,
+      "loss": 0.791,
+      "step": 100
+    },
+    {
+      "epoch": 0.0027189059122609063,
+      "grad_norm": 7.921170711517334,
+      "learning_rate": 2.9918840658519014e-05,
+      "loss": 0.7116,
+      "step": 200
+    },
+    {
+      "epoch": 0.0040783588683913595,
+      "grad_norm": 1.703231692314148,
+      "learning_rate": 2.98780570698351e-05,
+      "loss": 0.7025,
+      "step": 300
+    },
+    {
+      "epoch": 0.005437811824521813,
+      "grad_norm": 1.4689126014709473,
+      "learning_rate": 2.9837273481151187e-05,
+      "loss": 0.7026,
+      "step": 400
+    },
+    {
+      "epoch": 0.006797264780652266,
+      "grad_norm": 6.632850646972656,
+      "learning_rate": 2.979648989246727e-05,
+      "loss": 0.7006,
+      "step": 500
+    },
+    {
+      "epoch": 0.008156717736782719,
+      "grad_norm": 1.7937493324279785,
+      "learning_rate": 2.975570630378336e-05,
+      "loss": 0.6996,
+      "step": 600
+    },
+    {
+      "epoch": 0.009516170692913172,
+      "grad_norm": 1.545050024986267,
+      "learning_rate": 2.9714922715099447e-05,
+      "loss": 0.6988,
+      "step": 700
+    },
+    {
+      "epoch": 0.010875623649043625,
+      "grad_norm": 6.718420505523682,
+      "learning_rate": 2.967413912641553e-05,
+      "loss": 0.6934,
+      "step": 800
+    },
+    {
+      "epoch": 0.012235076605174078,
+      "grad_norm": 2.417815923690796,
+      "learning_rate": 2.9633355537731616e-05,
+      "loss": 0.7031,
+      "step": 900
+    },
+    {
+      "epoch": 0.013594529561304532,
+      "grad_norm": 3.016540765762329,
+      "learning_rate": 2.9592571949047704e-05,
+      "loss": 0.7003,
+      "step": 1000
+    },
+    {
+      "epoch": 0.014953982517434985,
+      "grad_norm": 1.3102728128433228,
+      "learning_rate": 2.9551788360363792e-05,
+      "loss": 0.6939,
+      "step": 1100
+    },
+    {
+      "epoch": 0.016313435473565438,
+      "grad_norm": 3.511146306991577,
+      "learning_rate": 2.9511004771679877e-05,
+      "loss": 0.7018,
+      "step": 1200
+    },
+    {
+      "epoch": 0.01767288842969589,
+      "grad_norm": 2.3049850463867188,
+      "learning_rate": 2.9470221182995965e-05,
+      "loss": 0.7093,
+      "step": 1300
+    },
+    {
+      "epoch": 0.019032341385826344,
+      "grad_norm": 1.0154485702514648,
+      "learning_rate": 2.942943759431205e-05,
+      "loss": 0.7035,
+      "step": 1400
+    },
+    {
+      "epoch": 0.020391794341956797,
+      "grad_norm": 2.085158348083496,
+      "learning_rate": 2.9388654005628134e-05,
+      "loss": 0.7015,
+      "step": 1500
+    },
+    {
+      "epoch": 0.02175124729808725,
+      "grad_norm": 3.9277114868164062,
+      "learning_rate": 2.9347870416944225e-05,
+      "loss": 0.6994,
+      "step": 1600
+    },
+    {
+      "epoch": 0.023110700254217704,
+      "grad_norm": 1.8050942420959473,
+      "learning_rate": 2.930708682826031e-05,
+      "loss": 0.7027,
+      "step": 1700
+    },
+    {
+      "epoch": 0.024470153210348157,
+      "grad_norm": 1.5299062728881836,
+      "learning_rate": 2.9266303239576394e-05,
+      "loss": 0.6989,
+      "step": 1800
+    },
+    {
+      "epoch": 0.02582960616647861,
+      "grad_norm": 3.9614956378936768,
+      "learning_rate": 2.9225519650892482e-05,
+      "loss": 0.6968,
+      "step": 1900
+    },
+    {
+      "epoch": 0.027189059122609063,
+      "grad_norm": 1.5142548084259033,
+      "learning_rate": 2.9184736062208567e-05,
+      "loss": 0.6996,
+      "step": 2000
+    },
+    {
+      "epoch": 0.028548512078739516,
+      "grad_norm": 2.0255579948425293,
+      "learning_rate": 2.9143952473524655e-05,
+      "loss": 0.6992,
+      "step": 2100
+    },
+    {
+      "epoch": 0.02990796503486997,
+      "grad_norm": 3.3495869636535645,
+      "learning_rate": 2.9103168884840743e-05,
+      "loss": 0.6986,
+      "step": 2200
+    },
+    {
+      "epoch": 0.03126741799100042,
+      "grad_norm": 4.41119909286499,
+      "learning_rate": 2.9062385296156827e-05,
+      "loss": 0.6963,
+      "step": 2300
+    },
+    {
+      "epoch": 0.032626870947130876,
+      "grad_norm": 2.923621416091919,
+      "learning_rate": 2.902160170747291e-05,
+      "loss": 0.6935,
+      "step": 2400
+    },
+    {
+      "epoch": 0.033986323903261326,
+      "grad_norm": 6.4013285636901855,
+      "learning_rate": 2.8980818118789e-05,
+      "loss": 0.6984,
+      "step": 2500
+    },
+    {
+      "epoch": 0.03534577685939178,
+      "grad_norm": 2.191399097442627,
+      "learning_rate": 2.8940034530105088e-05,
+      "loss": 0.6955,
+      "step": 2600
+    },
+    {
+      "epoch": 0.03670522981552223,
+      "grad_norm": 1.6993489265441895,
+      "learning_rate": 2.8899250941421172e-05,
+      "loss": 0.7002,
+      "step": 2700
+    },
+    {
+      "epoch": 0.03806468277165269,
+      "grad_norm": 3.364286184310913,
+      "learning_rate": 2.885846735273726e-05,
+      "loss": 0.6964,
+      "step": 2800
+    },
+    {
+      "epoch": 0.03942413572778314,
+      "grad_norm": 1.9982099533081055,
+      "learning_rate": 2.8817683764053345e-05,
+      "loss": 0.7069,
+      "step": 2900
+    },
+    {
+      "epoch": 0.040783588683913595,
+      "grad_norm": 1.524899959564209,
+      "learning_rate": 2.877690017536943e-05,
+      "loss": 0.6961,
+      "step": 3000
+    },
+    {
+      "epoch": 0.042143041640044045,
+      "grad_norm": 2.2762181758880615,
+      "learning_rate": 2.873611658668552e-05,
+      "loss": 0.6991,
+      "step": 3100
+    },
+    {
+      "epoch": 0.0435024945961745,
+      "grad_norm": 2.0052831172943115,
+      "learning_rate": 2.8695332998001605e-05,
+      "loss": 0.6987,
+      "step": 3200
+    },
+    {
+      "epoch": 0.04486194755230495,
+      "grad_norm": 1.6109389066696167,
+      "learning_rate": 2.865454940931769e-05,
+      "loss": 0.6974,
+      "step": 3300
+    },
+    {
+      "epoch": 0.04622140050843541,
+      "grad_norm": 1.7458642721176147,
+      "learning_rate": 2.8613765820633778e-05,
+      "loss": 0.6984,
+      "step": 3400
+    },
+    {
+      "epoch": 0.04758085346456586,
+      "grad_norm": 5.7916083335876465,
+      "learning_rate": 2.8572982231949862e-05,
+      "loss": 0.6986,
+      "step": 3500
+    },
+    {
+      "epoch": 0.048940306420696314,
+      "grad_norm": 2.8352317810058594,
+      "learning_rate": 2.8532198643265954e-05,
+      "loss": 0.7004,
+      "step": 3600
+    },
+    {
+      "epoch": 0.050299759376826764,
+      "grad_norm": 6.102287769317627,
+      "learning_rate": 2.8491415054582038e-05,
+      "loss": 0.6975,
+      "step": 3700
+    },
+    {
+      "epoch": 0.05165921233295722,
+      "grad_norm": 2.8221065998077393,
+      "learning_rate": 2.8450631465898123e-05,
+      "loss": 0.7092,
+      "step": 3800
+    },
+    {
+      "epoch": 0.05301866528908767,
+      "grad_norm": 2.0802714824676514,
+      "learning_rate": 2.840984787721421e-05,
+      "loss": 0.7097,
+      "step": 3900
+    },
+    {
+      "epoch": 0.05437811824521813,
+      "grad_norm": 4.515227794647217,
+      "learning_rate": 2.8369064288530295e-05,
+      "loss": 0.6991,
+      "step": 4000
+    },
+    {
+      "epoch": 0.055737571201348576,
+      "grad_norm": 4.737243175506592,
+      "learning_rate": 2.8328280699846383e-05,
+      "loss": 0.7042,
+      "step": 4100
+    },
+    {
+      "epoch": 0.05709702415747903,
+      "grad_norm": 5.016382694244385,
+      "learning_rate": 2.828749711116247e-05,
+      "loss": 0.7008,
+      "step": 4200
+    },
+    {
+      "epoch": 0.05845647711360948,
+      "grad_norm": 2.7722420692443848,
+      "learning_rate": 2.8246713522478556e-05,
+      "loss": 0.7038,
+      "step": 4300
+    },
+    {
+      "epoch": 0.05981593006973994,
+      "grad_norm": 3.596283435821533,
+      "learning_rate": 2.820592993379464e-05,
+      "loss": 0.7008,
+      "step": 4400
+    },
+    {
+      "epoch": 0.06117538302587039,
+      "grad_norm": 3.8389534950256348,
+      "learning_rate": 2.8165146345110728e-05,
+      "loss": 0.6986,
+      "step": 4500
+    },
+    {
+      "epoch": 0.06253483598200084,
+      "grad_norm": 2.992204189300537,
+      "learning_rate": 2.8124362756426816e-05,
+      "loss": 0.7027,
+      "step": 4600
+    },
+    {
+      "epoch": 0.0638942889381313,
+      "grad_norm": 1.4091521501541138,
+      "learning_rate": 2.80835791677429e-05,
+      "loss": 0.7032,
+      "step": 4700
+    },
+    {
+      "epoch": 0.06525374189426175,
+      "grad_norm": 1.7205729484558105,
+      "learning_rate": 2.804279557905899e-05,
+      "loss": 0.7061,
+      "step": 4800
+    },
+    {
+      "epoch": 0.0666131948503922,
+      "grad_norm": 2.666346549987793,
+      "learning_rate": 2.8002011990375073e-05,
+      "loss": 0.7016,
+      "step": 4900
+    },
+    {
+      "epoch": 0.06797264780652265,
+      "grad_norm": 2.0234336853027344,
+      "learning_rate": 2.7961228401691158e-05,
+      "loss": 0.6986,
+      "step": 5000
+    },
+    {
+      "epoch": 0.06933210076265311,
+      "grad_norm": 1.3103491067886353,
+      "learning_rate": 2.792044481300725e-05,
+      "loss": 0.6995,
+      "step": 5100
+    },
+    {
+      "epoch": 0.07069155371878356,
+      "grad_norm": 3.3153600692749023,
+      "learning_rate": 2.7879661224323334e-05,
+      "loss": 0.6968,
+      "step": 5200
+    },
+    {
+      "epoch": 0.07205100667491401,
+      "grad_norm": 3.262269973754883,
+      "learning_rate": 2.7838877635639418e-05,
+      "loss": 0.7041,
+      "step": 5300
+    },
+    {
+      "epoch": 0.07341045963104446,
+      "grad_norm": 5.839659214019775,
+      "learning_rate": 2.7798094046955506e-05,
+      "loss": 0.692,
+      "step": 5400
+    },
+    {
+      "epoch": 0.07476991258717493,
+      "grad_norm": 6.034287929534912,
+      "learning_rate": 2.775731045827159e-05,
+      "loss": 0.7034,
+      "step": 5500
+    },
+    {
+      "epoch": 0.07612936554330538,
+      "grad_norm": 3.7333922386169434,
+      "learning_rate": 2.771652686958768e-05,
+      "loss": 0.6986,
+      "step": 5600
+    },
+    {
+      "epoch": 0.07748881849943583,
+      "grad_norm": 2.81872820854187,
+      "learning_rate": 2.7675743280903767e-05,
+      "loss": 0.7021,
+      "step": 5700
+    },
+    {
+      "epoch": 0.07884827145556628,
+      "grad_norm": 2.6562986373901367,
+      "learning_rate": 2.763495969221985e-05,
+      "loss": 0.6999,
+      "step": 5800
+    },
+    {
+      "epoch": 0.08020772441169673,
+      "grad_norm": 4.191847801208496,
+      "learning_rate": 2.7594176103535936e-05,
+      "loss": 0.704,
+      "step": 5900
+    },
+    {
+      "epoch": 0.08156717736782719,
+      "grad_norm": 1.9238234758377075,
+      "learning_rate": 2.7553392514852024e-05,
+      "loss": 0.6996,
+      "step": 6000
+    },
+    {
+      "epoch": 0.08292663032395764,
+      "grad_norm": 1.6448299884796143,
+      "learning_rate": 2.751260892616811e-05,
+      "loss": 0.7033,
+      "step": 6100
+    },
+    {
+      "epoch": 0.08428608328008809,
+      "grad_norm": 2.8520469665527344,
+      "learning_rate": 2.7471825337484196e-05,
+      "loss": 0.707,
+      "step": 6200
+    },
+    {
+      "epoch": 0.08564553623621854,
+      "grad_norm": 4.698349952697754,
+      "learning_rate": 2.7431041748800284e-05,
+      "loss": 0.6995,
+      "step": 6300
+    },
+    {
+      "epoch": 0.087004989192349,
+      "grad_norm": 3.2636826038360596,
+      "learning_rate": 2.739025816011637e-05,
+      "loss": 0.697,
+      "step": 6400
+    },
+    {
+      "epoch": 0.08836444214847945,
+      "grad_norm": 5.062309741973877,
+      "learning_rate": 2.7349474571432457e-05,
+      "loss": 0.7068,
+      "step": 6500
+    },
+    {
+      "epoch": 0.0897238951046099,
+      "grad_norm": 1.9477702379226685,
+      "learning_rate": 2.7308690982748545e-05,
+      "loss": 0.6946,
+      "step": 6600
+    },
+    {
+      "epoch": 0.09108334806074035,
+      "grad_norm": 6.437952518463135,
+      "learning_rate": 2.726790739406463e-05,
+      "loss": 0.6968,
+      "step": 6700
+    },
+    {
+      "epoch": 0.09244280101687082,
+      "grad_norm": 1.488918423652649,
+      "learning_rate": 2.7227123805380717e-05,
+      "loss": 0.6964,
+      "step": 6800
+    },
+    {
+      "epoch": 0.09380225397300126,
+      "grad_norm": 1.5171183347702026,
+      "learning_rate": 2.7186340216696802e-05,
+      "loss": 0.6948,
+      "step": 6900
+    },
+    {
+      "epoch": 0.09516170692913171,
+      "grad_norm": 5.248293876647949,
+      "learning_rate": 2.7145556628012886e-05,
+      "loss": 0.6914,
+      "step": 7000
+    },
+    {
+      "epoch": 0.09652115988526216,
+      "grad_norm": 3.5038247108459473,
+      "learning_rate": 2.7104773039328978e-05,
+      "loss": 0.7016,
+      "step": 7100
+    },
+    {
+      "epoch": 0.09788061284139263,
+      "grad_norm": 2.2439801692962646,
+      "learning_rate": 2.7063989450645062e-05,
+      "loss": 0.6976,
+      "step": 7200
+    },
+    {
+      "epoch": 0.09924006579752308,
+      "grad_norm": 5.262351036071777,
+      "learning_rate": 2.7023205861961147e-05,
+      "loss": 0.7015,
+      "step": 7300
+    },
+    {
+      "epoch": 0.10059951875365353,
+      "grad_norm": 2.734067916870117,
+      "learning_rate": 2.6982422273277235e-05,
+      "loss": 0.7012,
+      "step": 7400
+    },
+    {
+      "epoch": 0.10195897170978398,
+      "grad_norm": 7.341092586517334,
+      "learning_rate": 2.694163868459332e-05,
+      "loss": 0.6977,
+      "step": 7500
+    },
+    {
+      "epoch": 0.10331842466591444,
+      "grad_norm": 2.047778367996216,
+      "learning_rate": 2.6900855095909407e-05,
+      "loss": 0.6934,
+      "step": 7600
+    },
+    {
+      "epoch": 0.10467787762204489,
+      "grad_norm": 5.612318515777588,
+      "learning_rate": 2.6860071507225495e-05,
+      "loss": 0.696,
+      "step": 7700
+    },
+    {
+      "epoch": 0.10603733057817534,
+      "grad_norm": 3.8864567279815674,
+      "learning_rate": 2.681928791854158e-05,
+      "loss": 0.6958,
+      "step": 7800
+    },
+    {
+      "epoch": 0.10739678353430579,
+      "grad_norm": 2.456672191619873,
+      "learning_rate": 2.6778504329857664e-05,
+      "loss": 0.7014,
+      "step": 7900
+    },
+    {
+      "epoch": 0.10875623649043625,
+      "grad_norm": 1.5562827587127686,
+      "learning_rate": 2.6737720741173752e-05,
+      "loss": 0.7,
+      "step": 8000
+    },
+    {
+      "epoch": 0.1101156894465667,
+      "grad_norm": 1.646262764930725,
+      "learning_rate": 2.669693715248984e-05,
+      "loss": 0.7028,
+      "step": 8100
+    },
+    {
+      "epoch": 0.11147514240269715,
+      "grad_norm": 2.5881056785583496,
+      "learning_rate": 2.6656153563805925e-05,
+      "loss": 0.697,
+      "step": 8200
+    },
+    {
+      "epoch": 0.1128345953588276,
+      "grad_norm": 3.108797788619995,
+      "learning_rate": 2.6615369975122013e-05,
+      "loss": 0.7,
+      "step": 8300
+    },
+    {
+      "epoch": 0.11419404831495807,
+      "grad_norm": 1.5215388536453247,
+      "learning_rate": 2.6574586386438097e-05,
+      "loss": 0.6956,
+      "step": 8400
+    },
+    {
+      "epoch": 0.11555350127108852,
+      "grad_norm": 1.2557023763656616,
+      "learning_rate": 2.6533802797754182e-05,
+      "loss": 0.7032,
+      "step": 8500
+    },
+    {
+      "epoch": 0.11691295422721897,
+      "grad_norm": 3.6592652797698975,
+      "learning_rate": 2.6493019209070273e-05,
+      "loss": 0.6957,
+      "step": 8600
+    },
+    {
+      "epoch": 0.11827240718334942,
+      "grad_norm": 1.6143642663955688,
+      "learning_rate": 2.6452235620386358e-05,
+      "loss": 0.6961,
+      "step": 8700
+    },
+    {
+      "epoch": 0.11963186013947988,
+      "grad_norm": 1.7212355136871338,
+      "learning_rate": 2.6411452031702442e-05,
+      "loss": 0.7041,
+      "step": 8800
+    },
+    {
+      "epoch": 0.12099131309561033,
+      "grad_norm": 1.2407207489013672,
+      "learning_rate": 2.637066844301853e-05,
+      "loss": 0.6938,
+      "step": 8900
+    },
+    {
+      "epoch": 0.12235076605174078,
+      "grad_norm": 4.306702613830566,
+      "learning_rate": 2.6329884854334615e-05,
+      "loss": 0.704,
+      "step": 9000
+    },
+    {
+      "epoch": 0.12371021900787123,
+      "grad_norm": 4.0667219161987305,
+      "learning_rate": 2.6289101265650703e-05,
+      "loss": 0.6966,
+      "step": 9100
+    },
+    {
+      "epoch": 0.12506967196400168,
+      "grad_norm": 2.244699478149414,
+      "learning_rate": 2.624831767696679e-05,
+      "loss": 0.6976,
+      "step": 9200
+    },
+    {
+      "epoch": 0.12642912492013214,
+      "grad_norm": 4.839937210083008,
+      "learning_rate": 2.6207534088282875e-05,
+      "loss": 0.6972,
+      "step": 9300
+    },
+    {
+      "epoch": 0.1277885778762626,
+      "grad_norm": 5.436954021453857,
+      "learning_rate": 2.6166750499598963e-05,
+      "loss": 0.698,
+      "step": 9400
+    },
+    {
+      "epoch": 0.12914803083239304,
+      "grad_norm": 5.324636459350586,
+      "learning_rate": 2.6125966910915048e-05,
+      "loss": 0.699,
+      "step": 9500
+    },
+    {
+      "epoch": 0.1305074837885235,
+      "grad_norm": 2.4143927097320557,
+      "learning_rate": 2.6085183322231136e-05,
+      "loss": 0.7033,
+      "step": 9600
+    },
+    {
+      "epoch": 0.13186693674465394,
+      "grad_norm": 3.336245059967041,
+      "learning_rate": 2.6044399733547224e-05,
+      "loss": 0.6993,
+      "step": 9700
+    },
+    {
+      "epoch": 0.1332263897007844,
+      "grad_norm": 1.2645655870437622,
+      "learning_rate": 2.600361614486331e-05,
+      "loss": 0.6977,
+      "step": 9800
+    },
+    {
+      "epoch": 0.13458584265691487,
+      "grad_norm": 3.2803938388824463,
+      "learning_rate": 2.5962832556179393e-05,
+      "loss": 0.6993,
+      "step": 9900
+    },
+    {
+      "epoch": 0.1359452956130453,
+      "grad_norm": 2.2295751571655273,
+      "learning_rate": 2.592204896749548e-05,
+      "loss": 0.6923,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 73559,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}