lillian039 commited on
Commit
f1ca069
·
verified ·
1 Parent(s): a53ba97

Model save

Browse files
Files changed (4) hide show
  1. README.md +69 -0
  2. all_results.json +9 -0
  3. train_results.json +9 -0
  4. trainer_state.json +3321 -0
README.md ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: barc0/cot-trainset-ft-transduction-v1
3
+ library_name: peft
4
+ license: llama3.1
5
+ tags:
6
+ - trl
7
+ - sft
8
+ - generated_from_trainer
9
+ model-index:
10
+ - name: cot-trainset-ft-transduction-v1-lora-train
11
+ results: []
12
+ ---
13
+
14
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
15
+ should probably proofread and complete it, then remove this comment. -->
16
+
17
+ # cot-trainset-ft-transduction-v1-lora-train
18
+
19
+ This model is a fine-tuned version of [barc0/cot-trainset-ft-transduction-v1](https://huggingface.co/barc0/cot-trainset-ft-transduction-v1) on an unknown dataset.
20
+ It achieves the following results on the evaluation set:
21
+ - Loss: 0.1177
22
+
23
+ ## Model description
24
+
25
+ More information needed
26
+
27
+ ## Intended uses & limitations
28
+
29
+ More information needed
30
+
31
+ ## Training and evaluation data
32
+
33
+ More information needed
34
+
35
+ ## Training procedure
36
+
37
+ ### Training hyperparameters
38
+
39
+ The following hyperparameters were used during training:
40
+ - learning_rate: 0.0002
41
+ - train_batch_size: 2
42
+ - eval_batch_size: 2
43
+ - seed: 42
44
+ - distributed_type: multi-GPU
45
+ - num_devices: 4
46
+ - gradient_accumulation_steps: 2
47
+ - total_train_batch_size: 16
48
+ - total_eval_batch_size: 8
49
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
50
+ - lr_scheduler_type: cosine
51
+ - lr_scheduler_warmup_ratio: 0.1
52
+ - num_epochs: 3
53
+
54
+ ### Training results
55
+
56
+ | Training Loss | Epoch | Step | Validation Loss |
57
+ |:-------------:|:-----:|:----:|:---------------:|
58
+ | 0.0918 | 1.0 | 155 | 0.0895 |
59
+ | 0.0463 | 2.0 | 310 | 0.0960 |
60
+ | 0.0271 | 3.0 | 465 | 0.1177 |
61
+
62
+
63
+ ### Framework versions
64
+
65
+ - PEFT 0.12.0
66
+ - Transformers 4.45.0.dev0
67
+ - Pytorch 2.4.0+cu121
68
+ - Datasets 2.21.0
69
+ - Tokenizers 0.19.1
all_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 261374226563072.0,
4
+ "train_loss": 0.07172503977693537,
5
+ "train_runtime": 3552.9052,
6
+ "train_samples": 2476,
7
+ "train_samples_per_second": 2.091,
8
+ "train_steps_per_second": 0.131
9
+ }
train_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 3.0,
3
+ "total_flos": 261374226563072.0,
4
+ "train_loss": 0.07172503977693537,
5
+ "train_runtime": 3552.9052,
6
+ "train_samples": 2476,
7
+ "train_samples_per_second": 2.091,
8
+ "train_steps_per_second": 0.131
9
+ }
trainer_state.json ADDED
@@ -0,0 +1,3321 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 3.0,
5
+ "eval_steps": 500,
6
+ "global_step": 465,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0064516129032258064,
13
+ "grad_norm": 1.8496088327765188,
14
+ "learning_rate": 4.255319148936171e-06,
15
+ "loss": 0.9425,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.012903225806451613,
20
+ "grad_norm": 1.464006720275199,
21
+ "learning_rate": 8.510638297872341e-06,
22
+ "loss": 0.6748,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.01935483870967742,
27
+ "grad_norm": 1.195864584909173,
28
+ "learning_rate": 1.2765957446808511e-05,
29
+ "loss": 0.5742,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.025806451612903226,
34
+ "grad_norm": 1.4795865650630229,
35
+ "learning_rate": 1.7021276595744682e-05,
36
+ "loss": 0.7095,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.03225806451612903,
41
+ "grad_norm": 1.3747220363223371,
42
+ "learning_rate": 2.1276595744680852e-05,
43
+ "loss": 0.6648,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.03870967741935484,
48
+ "grad_norm": 1.301406005018193,
49
+ "learning_rate": 2.5531914893617022e-05,
50
+ "loss": 0.6255,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.04516129032258064,
55
+ "grad_norm": 1.0187483254912535,
56
+ "learning_rate": 2.9787234042553192e-05,
57
+ "loss": 0.4435,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.05161290322580645,
62
+ "grad_norm": 1.0700513081990584,
63
+ "learning_rate": 3.4042553191489365e-05,
64
+ "loss": 0.4263,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 0.05806451612903226,
69
+ "grad_norm": 0.7712554505163577,
70
+ "learning_rate": 3.829787234042553e-05,
71
+ "loss": 0.2511,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 0.06451612903225806,
76
+ "grad_norm": 0.7232887438916186,
77
+ "learning_rate": 4.2553191489361704e-05,
78
+ "loss": 0.1781,
79
+ "step": 10
80
+ },
81
+ {
82
+ "epoch": 0.07096774193548387,
83
+ "grad_norm": 0.8652521068380956,
84
+ "learning_rate": 4.680851063829788e-05,
85
+ "loss": 0.1926,
86
+ "step": 11
87
+ },
88
+ {
89
+ "epoch": 0.07741935483870968,
90
+ "grad_norm": 0.5403017280043989,
91
+ "learning_rate": 5.1063829787234044e-05,
92
+ "loss": 0.1125,
93
+ "step": 12
94
+ },
95
+ {
96
+ "epoch": 0.08387096774193549,
97
+ "grad_norm": 0.7070226880901681,
98
+ "learning_rate": 5.531914893617022e-05,
99
+ "loss": 0.101,
100
+ "step": 13
101
+ },
102
+ {
103
+ "epoch": 0.09032258064516129,
104
+ "grad_norm": 0.2650073598784149,
105
+ "learning_rate": 5.9574468085106384e-05,
106
+ "loss": 0.1058,
107
+ "step": 14
108
+ },
109
+ {
110
+ "epoch": 0.0967741935483871,
111
+ "grad_norm": 0.131557187963195,
112
+ "learning_rate": 6.382978723404256e-05,
113
+ "loss": 0.1113,
114
+ "step": 15
115
+ },
116
+ {
117
+ "epoch": 0.1032258064516129,
118
+ "grad_norm": 0.09751111122397599,
119
+ "learning_rate": 6.808510638297873e-05,
120
+ "loss": 0.0834,
121
+ "step": 16
122
+ },
123
+ {
124
+ "epoch": 0.10967741935483871,
125
+ "grad_norm": 0.10433139009644296,
126
+ "learning_rate": 7.23404255319149e-05,
127
+ "loss": 0.0961,
128
+ "step": 17
129
+ },
130
+ {
131
+ "epoch": 0.11612903225806452,
132
+ "grad_norm": 0.1020133297592548,
133
+ "learning_rate": 7.659574468085106e-05,
134
+ "loss": 0.097,
135
+ "step": 18
136
+ },
137
+ {
138
+ "epoch": 0.12258064516129032,
139
+ "grad_norm": 0.07145294843882412,
140
+ "learning_rate": 8.085106382978723e-05,
141
+ "loss": 0.0916,
142
+ "step": 19
143
+ },
144
+ {
145
+ "epoch": 0.12903225806451613,
146
+ "grad_norm": 0.08981924516933591,
147
+ "learning_rate": 8.510638297872341e-05,
148
+ "loss": 0.101,
149
+ "step": 20
150
+ },
151
+ {
152
+ "epoch": 0.13548387096774195,
153
+ "grad_norm": 0.0681524232238508,
154
+ "learning_rate": 8.936170212765958e-05,
155
+ "loss": 0.0736,
156
+ "step": 21
157
+ },
158
+ {
159
+ "epoch": 0.14193548387096774,
160
+ "grad_norm": 0.0981002108730681,
161
+ "learning_rate": 9.361702127659576e-05,
162
+ "loss": 0.1091,
163
+ "step": 22
164
+ },
165
+ {
166
+ "epoch": 0.14838709677419354,
167
+ "grad_norm": 0.11001940230271333,
168
+ "learning_rate": 9.787234042553192e-05,
169
+ "loss": 0.0991,
170
+ "step": 23
171
+ },
172
+ {
173
+ "epoch": 0.15483870967741936,
174
+ "grad_norm": 0.06614356059405047,
175
+ "learning_rate": 0.00010212765957446809,
176
+ "loss": 0.0591,
177
+ "step": 24
178
+ },
179
+ {
180
+ "epoch": 0.16129032258064516,
181
+ "grad_norm": 0.05937801367835722,
182
+ "learning_rate": 0.00010638297872340425,
183
+ "loss": 0.0633,
184
+ "step": 25
185
+ },
186
+ {
187
+ "epoch": 0.16774193548387098,
188
+ "grad_norm": 0.07592110532595596,
189
+ "learning_rate": 0.00011063829787234043,
190
+ "loss": 0.095,
191
+ "step": 26
192
+ },
193
+ {
194
+ "epoch": 0.17419354838709677,
195
+ "grad_norm": 0.07287278501663387,
196
+ "learning_rate": 0.00011489361702127661,
197
+ "loss": 0.09,
198
+ "step": 27
199
+ },
200
+ {
201
+ "epoch": 0.18064516129032257,
202
+ "grad_norm": 0.07270501072864007,
203
+ "learning_rate": 0.00011914893617021277,
204
+ "loss": 0.0764,
205
+ "step": 28
206
+ },
207
+ {
208
+ "epoch": 0.1870967741935484,
209
+ "grad_norm": 0.08202627980248832,
210
+ "learning_rate": 0.00012340425531914893,
211
+ "loss": 0.0841,
212
+ "step": 29
213
+ },
214
+ {
215
+ "epoch": 0.1935483870967742,
216
+ "grad_norm": 0.10309403095606792,
217
+ "learning_rate": 0.00012765957446808513,
218
+ "loss": 0.0989,
219
+ "step": 30
220
+ },
221
+ {
222
+ "epoch": 0.2,
223
+ "grad_norm": 0.08068773698268775,
224
+ "learning_rate": 0.00013191489361702127,
225
+ "loss": 0.0844,
226
+ "step": 31
227
+ },
228
+ {
229
+ "epoch": 0.2064516129032258,
230
+ "grad_norm": 0.06817985516792972,
231
+ "learning_rate": 0.00013617021276595746,
232
+ "loss": 0.0793,
233
+ "step": 32
234
+ },
235
+ {
236
+ "epoch": 0.2129032258064516,
237
+ "grad_norm": 0.06656651609987188,
238
+ "learning_rate": 0.00014042553191489363,
239
+ "loss": 0.0666,
240
+ "step": 33
241
+ },
242
+ {
243
+ "epoch": 0.21935483870967742,
244
+ "grad_norm": 0.09101885574528384,
245
+ "learning_rate": 0.0001446808510638298,
246
+ "loss": 0.0856,
247
+ "step": 34
248
+ },
249
+ {
250
+ "epoch": 0.22580645161290322,
251
+ "grad_norm": 0.11244141382637182,
252
+ "learning_rate": 0.00014893617021276596,
253
+ "loss": 0.1076,
254
+ "step": 35
255
+ },
256
+ {
257
+ "epoch": 0.23225806451612904,
258
+ "grad_norm": 0.07641687845159767,
259
+ "learning_rate": 0.00015319148936170213,
260
+ "loss": 0.0678,
261
+ "step": 36
262
+ },
263
+ {
264
+ "epoch": 0.23870967741935484,
265
+ "grad_norm": 0.08682080497813398,
266
+ "learning_rate": 0.00015744680851063832,
267
+ "loss": 0.0859,
268
+ "step": 37
269
+ },
270
+ {
271
+ "epoch": 0.24516129032258063,
272
+ "grad_norm": 0.07050044811298162,
273
+ "learning_rate": 0.00016170212765957446,
274
+ "loss": 0.0746,
275
+ "step": 38
276
+ },
277
+ {
278
+ "epoch": 0.25161290322580643,
279
+ "grad_norm": 0.10418569203255569,
280
+ "learning_rate": 0.00016595744680851065,
281
+ "loss": 0.1028,
282
+ "step": 39
283
+ },
284
+ {
285
+ "epoch": 0.25806451612903225,
286
+ "grad_norm": 0.14211262039099226,
287
+ "learning_rate": 0.00017021276595744682,
288
+ "loss": 0.101,
289
+ "step": 40
290
+ },
291
+ {
292
+ "epoch": 0.2645161290322581,
293
+ "grad_norm": 0.065192138802457,
294
+ "learning_rate": 0.00017446808510638298,
295
+ "loss": 0.0591,
296
+ "step": 41
297
+ },
298
+ {
299
+ "epoch": 0.2709677419354839,
300
+ "grad_norm": 0.08691739931276934,
301
+ "learning_rate": 0.00017872340425531915,
302
+ "loss": 0.0816,
303
+ "step": 42
304
+ },
305
+ {
306
+ "epoch": 0.27741935483870966,
307
+ "grad_norm": 0.09038372940039405,
308
+ "learning_rate": 0.00018297872340425532,
309
+ "loss": 0.0923,
310
+ "step": 43
311
+ },
312
+ {
313
+ "epoch": 0.2838709677419355,
314
+ "grad_norm": 0.07006837751282566,
315
+ "learning_rate": 0.0001872340425531915,
316
+ "loss": 0.0781,
317
+ "step": 44
318
+ },
319
+ {
320
+ "epoch": 0.2903225806451613,
321
+ "grad_norm": 0.08875720051203487,
322
+ "learning_rate": 0.00019148936170212768,
323
+ "loss": 0.0672,
324
+ "step": 45
325
+ },
326
+ {
327
+ "epoch": 0.2967741935483871,
328
+ "grad_norm": 0.07220322606120361,
329
+ "learning_rate": 0.00019574468085106384,
330
+ "loss": 0.0853,
331
+ "step": 46
332
+ },
333
+ {
334
+ "epoch": 0.3032258064516129,
335
+ "grad_norm": 0.07992244290240197,
336
+ "learning_rate": 0.0002,
337
+ "loss": 0.0846,
338
+ "step": 47
339
+ },
340
+ {
341
+ "epoch": 0.3096774193548387,
342
+ "grad_norm": 0.09917015506018256,
343
+ "learning_rate": 0.0001999971756719333,
344
+ "loss": 0.0934,
345
+ "step": 48
346
+ },
347
+ {
348
+ "epoch": 0.3161290322580645,
349
+ "grad_norm": 0.16671519547672903,
350
+ "learning_rate": 0.00019998870284726968,
351
+ "loss": 0.1228,
352
+ "step": 49
353
+ },
354
+ {
355
+ "epoch": 0.3225806451612903,
356
+ "grad_norm": 0.09107913287594624,
357
+ "learning_rate": 0.00019997458200460993,
358
+ "loss": 0.0847,
359
+ "step": 50
360
+ },
361
+ {
362
+ "epoch": 0.32903225806451614,
363
+ "grad_norm": 0.13795927374096006,
364
+ "learning_rate": 0.00019995481394159188,
365
+ "loss": 0.0904,
366
+ "step": 51
367
+ },
368
+ {
369
+ "epoch": 0.33548387096774196,
370
+ "grad_norm": 0.11415771239086442,
371
+ "learning_rate": 0.0001999293997748454,
372
+ "loss": 0.0782,
373
+ "step": 52
374
+ },
375
+ {
376
+ "epoch": 0.3419354838709677,
377
+ "grad_norm": 0.08413093725717319,
378
+ "learning_rate": 0.00019989834093992945,
379
+ "loss": 0.0818,
380
+ "step": 53
381
+ },
382
+ {
383
+ "epoch": 0.34838709677419355,
384
+ "grad_norm": 0.06942673059881972,
385
+ "learning_rate": 0.00019986163919125075,
386
+ "loss": 0.0746,
387
+ "step": 54
388
+ },
389
+ {
390
+ "epoch": 0.3548387096774194,
391
+ "grad_norm": 0.06779490919317474,
392
+ "learning_rate": 0.00019981929660196492,
393
+ "loss": 0.0704,
394
+ "step": 55
395
+ },
396
+ {
397
+ "epoch": 0.36129032258064514,
398
+ "grad_norm": 0.0705554071643389,
399
+ "learning_rate": 0.0001997713155638592,
400
+ "loss": 0.0718,
401
+ "step": 56
402
+ },
403
+ {
404
+ "epoch": 0.36774193548387096,
405
+ "grad_norm": 0.06094574022360802,
406
+ "learning_rate": 0.00019971769878721743,
407
+ "loss": 0.0615,
408
+ "step": 57
409
+ },
410
+ {
411
+ "epoch": 0.3741935483870968,
412
+ "grad_norm": 0.08174462699234748,
413
+ "learning_rate": 0.000199658449300667,
414
+ "loss": 0.0772,
415
+ "step": 58
416
+ },
417
+ {
418
+ "epoch": 0.38064516129032255,
419
+ "grad_norm": 0.15240897489693175,
420
+ "learning_rate": 0.00019959357045100764,
421
+ "loss": 0.1136,
422
+ "step": 59
423
+ },
424
+ {
425
+ "epoch": 0.3870967741935484,
426
+ "grad_norm": 0.12657819665542305,
427
+ "learning_rate": 0.00019952306590302247,
428
+ "loss": 0.1066,
429
+ "step": 60
430
+ },
431
+ {
432
+ "epoch": 0.3935483870967742,
433
+ "grad_norm": 0.06847012277175818,
434
+ "learning_rate": 0.00019944693963927092,
435
+ "loss": 0.0809,
436
+ "step": 61
437
+ },
438
+ {
439
+ "epoch": 0.4,
440
+ "grad_norm": 0.06995242717454851,
441
+ "learning_rate": 0.00019936519595986394,
442
+ "loss": 0.0732,
443
+ "step": 62
444
+ },
445
+ {
446
+ "epoch": 0.4064516129032258,
447
+ "grad_norm": 0.08400016052467398,
448
+ "learning_rate": 0.00019927783948222084,
449
+ "loss": 0.0838,
450
+ "step": 63
451
+ },
452
+ {
453
+ "epoch": 0.4129032258064516,
454
+ "grad_norm": 0.06773211017815356,
455
+ "learning_rate": 0.00019918487514080865,
456
+ "loss": 0.0786,
457
+ "step": 64
458
+ },
459
+ {
460
+ "epoch": 0.41935483870967744,
461
+ "grad_norm": 0.05982739234697708,
462
+ "learning_rate": 0.00019908630818686338,
463
+ "loss": 0.0643,
464
+ "step": 65
465
+ },
466
+ {
467
+ "epoch": 0.4258064516129032,
468
+ "grad_norm": 0.07075319425828745,
469
+ "learning_rate": 0.0001989821441880933,
470
+ "loss": 0.0765,
471
+ "step": 66
472
+ },
473
+ {
474
+ "epoch": 0.432258064516129,
475
+ "grad_norm": 0.08372038666535586,
476
+ "learning_rate": 0.00019887238902836448,
477
+ "loss": 0.0669,
478
+ "step": 67
479
+ },
480
+ {
481
+ "epoch": 0.43870967741935485,
482
+ "grad_norm": 0.13201060477850413,
483
+ "learning_rate": 0.00019875704890736853,
484
+ "loss": 0.1129,
485
+ "step": 68
486
+ },
487
+ {
488
+ "epoch": 0.44516129032258067,
489
+ "grad_norm": 0.15774619872849757,
490
+ "learning_rate": 0.00019863613034027224,
491
+ "loss": 0.1031,
492
+ "step": 69
493
+ },
494
+ {
495
+ "epoch": 0.45161290322580644,
496
+ "grad_norm": 0.09239020494576224,
497
+ "learning_rate": 0.0001985096401573497,
498
+ "loss": 0.0827,
499
+ "step": 70
500
+ },
501
+ {
502
+ "epoch": 0.45806451612903226,
503
+ "grad_norm": 0.08710163284471478,
504
+ "learning_rate": 0.00019837758550359636,
505
+ "loss": 0.0898,
506
+ "step": 71
507
+ },
508
+ {
509
+ "epoch": 0.4645161290322581,
510
+ "grad_norm": 0.09970425528976597,
511
+ "learning_rate": 0.0001982399738383255,
512
+ "loss": 0.0671,
513
+ "step": 72
514
+ },
515
+ {
516
+ "epoch": 0.47096774193548385,
517
+ "grad_norm": 0.11084567093271626,
518
+ "learning_rate": 0.00019809681293474693,
519
+ "loss": 0.0978,
520
+ "step": 73
521
+ },
522
+ {
523
+ "epoch": 0.4774193548387097,
524
+ "grad_norm": 0.08583289505322891,
525
+ "learning_rate": 0.0001979481108795278,
526
+ "loss": 0.0851,
527
+ "step": 74
528
+ },
529
+ {
530
+ "epoch": 0.4838709677419355,
531
+ "grad_norm": 0.08349769120006256,
532
+ "learning_rate": 0.00019779387607233586,
533
+ "loss": 0.096,
534
+ "step": 75
535
+ },
536
+ {
537
+ "epoch": 0.49032258064516127,
538
+ "grad_norm": 0.08822285487830493,
539
+ "learning_rate": 0.00019763411722536502,
540
+ "loss": 0.0797,
541
+ "step": 76
542
+ },
543
+ {
544
+ "epoch": 0.4967741935483871,
545
+ "grad_norm": 0.08213973307253318,
546
+ "learning_rate": 0.00019746884336284317,
547
+ "loss": 0.0798,
548
+ "step": 77
549
+ },
550
+ {
551
+ "epoch": 0.5032258064516129,
552
+ "grad_norm": 0.13109929672968634,
553
+ "learning_rate": 0.00019729806382052248,
554
+ "loss": 0.1037,
555
+ "step": 78
556
+ },
557
+ {
558
+ "epoch": 0.5096774193548387,
559
+ "grad_norm": 0.09245218089323069,
560
+ "learning_rate": 0.00019712178824515212,
561
+ "loss": 0.106,
562
+ "step": 79
563
+ },
564
+ {
565
+ "epoch": 0.5161290322580645,
566
+ "grad_norm": 0.08163307640075247,
567
+ "learning_rate": 0.00019694002659393305,
568
+ "loss": 0.062,
569
+ "step": 80
570
+ },
571
+ {
572
+ "epoch": 0.5225806451612903,
573
+ "grad_norm": 0.05950648712895881,
574
+ "learning_rate": 0.00019675278913395606,
575
+ "loss": 0.0597,
576
+ "step": 81
577
+ },
578
+ {
579
+ "epoch": 0.5290322580645161,
580
+ "grad_norm": 0.06692605001225288,
581
+ "learning_rate": 0.0001965600864416213,
582
+ "loss": 0.0822,
583
+ "step": 82
584
+ },
585
+ {
586
+ "epoch": 0.535483870967742,
587
+ "grad_norm": 0.08343609115222997,
588
+ "learning_rate": 0.00019636192940204134,
589
+ "loss": 0.0795,
590
+ "step": 83
591
+ },
592
+ {
593
+ "epoch": 0.5419354838709678,
594
+ "grad_norm": 0.06269743932265057,
595
+ "learning_rate": 0.00019615832920842586,
596
+ "loss": 0.0723,
597
+ "step": 84
598
+ },
599
+ {
600
+ "epoch": 0.5483870967741935,
601
+ "grad_norm": 0.08562276972837224,
602
+ "learning_rate": 0.00019594929736144976,
603
+ "loss": 0.0815,
604
+ "step": 85
605
+ },
606
+ {
607
+ "epoch": 0.5548387096774193,
608
+ "grad_norm": 0.15766855113117675,
609
+ "learning_rate": 0.0001957348456686032,
610
+ "loss": 0.116,
611
+ "step": 86
612
+ },
613
+ {
614
+ "epoch": 0.5612903225806452,
615
+ "grad_norm": 0.09597817519413815,
616
+ "learning_rate": 0.00019551498624352496,
617
+ "loss": 0.0748,
618
+ "step": 87
619
+ },
620
+ {
621
+ "epoch": 0.567741935483871,
622
+ "grad_norm": 0.0781406533241935,
623
+ "learning_rate": 0.00019528973150531787,
624
+ "loss": 0.0767,
625
+ "step": 88
626
+ },
627
+ {
628
+ "epoch": 0.5741935483870968,
629
+ "grad_norm": 0.06202378155483603,
630
+ "learning_rate": 0.00019505909417784754,
631
+ "loss": 0.0824,
632
+ "step": 89
633
+ },
634
+ {
635
+ "epoch": 0.5806451612903226,
636
+ "grad_norm": 0.07132758636096014,
637
+ "learning_rate": 0.00019482308728902356,
638
+ "loss": 0.0711,
639
+ "step": 90
640
+ },
641
+ {
642
+ "epoch": 0.5870967741935483,
643
+ "grad_norm": 0.08324703218713819,
644
+ "learning_rate": 0.00019458172417006347,
645
+ "loss": 0.0908,
646
+ "step": 91
647
+ },
648
+ {
649
+ "epoch": 0.5935483870967742,
650
+ "grad_norm": 0.07808035645363601,
651
+ "learning_rate": 0.00019433501845473995,
652
+ "loss": 0.0798,
653
+ "step": 92
654
+ },
655
+ {
656
+ "epoch": 0.6,
657
+ "grad_norm": 0.09922957657013898,
658
+ "learning_rate": 0.00019408298407861042,
659
+ "loss": 0.0938,
660
+ "step": 93
661
+ },
662
+ {
663
+ "epoch": 0.6064516129032258,
664
+ "grad_norm": 0.11239213177839262,
665
+ "learning_rate": 0.00019382563527823026,
666
+ "loss": 0.0958,
667
+ "step": 94
668
+ },
669
+ {
670
+ "epoch": 0.6129032258064516,
671
+ "grad_norm": 0.11717297126046855,
672
+ "learning_rate": 0.00019356298659034817,
673
+ "loss": 0.1095,
674
+ "step": 95
675
+ },
676
+ {
677
+ "epoch": 0.6193548387096774,
678
+ "grad_norm": 0.058447164828301125,
679
+ "learning_rate": 0.00019329505285108542,
680
+ "loss": 0.0656,
681
+ "step": 96
682
+ },
683
+ {
684
+ "epoch": 0.6258064516129033,
685
+ "grad_norm": 0.06781770204369802,
686
+ "learning_rate": 0.00019302184919509755,
687
+ "loss": 0.0731,
688
+ "step": 97
689
+ },
690
+ {
691
+ "epoch": 0.632258064516129,
692
+ "grad_norm": 0.07151161214033872,
693
+ "learning_rate": 0.00019274339105471971,
694
+ "loss": 0.0715,
695
+ "step": 98
696
+ },
697
+ {
698
+ "epoch": 0.6387096774193548,
699
+ "grad_norm": 0.07604008792488949,
700
+ "learning_rate": 0.00019245969415909465,
701
+ "loss": 0.0742,
702
+ "step": 99
703
+ },
704
+ {
705
+ "epoch": 0.6451612903225806,
706
+ "grad_norm": 0.10649337867077462,
707
+ "learning_rate": 0.00019217077453328449,
708
+ "loss": 0.0888,
709
+ "step": 100
710
+ },
711
+ {
712
+ "epoch": 0.6516129032258065,
713
+ "grad_norm": 0.06658172686723186,
714
+ "learning_rate": 0.0001918766484973654,
715
+ "loss": 0.0596,
716
+ "step": 101
717
+ },
718
+ {
719
+ "epoch": 0.6580645161290323,
720
+ "grad_norm": 0.07673513301158036,
721
+ "learning_rate": 0.00019157733266550575,
722
+ "loss": 0.0807,
723
+ "step": 102
724
+ },
725
+ {
726
+ "epoch": 0.6645161290322581,
727
+ "grad_norm": 0.10741827222890765,
728
+ "learning_rate": 0.0001912728439450276,
729
+ "loss": 0.0957,
730
+ "step": 103
731
+ },
732
+ {
733
+ "epoch": 0.6709677419354839,
734
+ "grad_norm": 0.07943997555150896,
735
+ "learning_rate": 0.00019096319953545185,
736
+ "loss": 0.0732,
737
+ "step": 104
738
+ },
739
+ {
740
+ "epoch": 0.6774193548387096,
741
+ "grad_norm": 0.09157580363747424,
742
+ "learning_rate": 0.0001906484169275263,
743
+ "loss": 0.0964,
744
+ "step": 105
745
+ },
746
+ {
747
+ "epoch": 0.6838709677419355,
748
+ "grad_norm": 0.07483334970504105,
749
+ "learning_rate": 0.00019032851390223812,
750
+ "loss": 0.0813,
751
+ "step": 106
752
+ },
753
+ {
754
+ "epoch": 0.6903225806451613,
755
+ "grad_norm": 0.08004302588923752,
756
+ "learning_rate": 0.00019000350852980909,
757
+ "loss": 0.0792,
758
+ "step": 107
759
+ },
760
+ {
761
+ "epoch": 0.6967741935483871,
762
+ "grad_norm": 0.10990654224626453,
763
+ "learning_rate": 0.00018967341916867518,
764
+ "loss": 0.096,
765
+ "step": 108
766
+ },
767
+ {
768
+ "epoch": 0.7032258064516129,
769
+ "grad_norm": 0.16146890814677625,
770
+ "learning_rate": 0.00018933826446444933,
771
+ "loss": 0.1212,
772
+ "step": 109
773
+ },
774
+ {
775
+ "epoch": 0.7096774193548387,
776
+ "grad_norm": 0.0695644520734436,
777
+ "learning_rate": 0.0001889980633488683,
778
+ "loss": 0.072,
779
+ "step": 110
780
+ },
781
+ {
782
+ "epoch": 0.7161290322580646,
783
+ "grad_norm": 0.07364701758879359,
784
+ "learning_rate": 0.00018865283503872324,
785
+ "loss": 0.0831,
786
+ "step": 111
787
+ },
788
+ {
789
+ "epoch": 0.7225806451612903,
790
+ "grad_norm": 0.06683550033086046,
791
+ "learning_rate": 0.00018830259903477426,
792
+ "loss": 0.0801,
793
+ "step": 112
794
+ },
795
+ {
796
+ "epoch": 0.7290322580645161,
797
+ "grad_norm": 0.12012664311858479,
798
+ "learning_rate": 0.0001879473751206489,
799
+ "loss": 0.1029,
800
+ "step": 113
801
+ },
802
+ {
803
+ "epoch": 0.7354838709677419,
804
+ "grad_norm": 0.09146802828659024,
805
+ "learning_rate": 0.0001875871833617246,
806
+ "loss": 0.0894,
807
+ "step": 114
808
+ },
809
+ {
810
+ "epoch": 0.7419354838709677,
811
+ "grad_norm": 0.07579863274704472,
812
+ "learning_rate": 0.0001872220441039952,
813
+ "loss": 0.0713,
814
+ "step": 115
815
+ },
816
+ {
817
+ "epoch": 0.7483870967741936,
818
+ "grad_norm": 0.07086039028499559,
819
+ "learning_rate": 0.0001868519779729218,
820
+ "loss": 0.0731,
821
+ "step": 116
822
+ },
823
+ {
824
+ "epoch": 0.7548387096774194,
825
+ "grad_norm": 0.07163280313926258,
826
+ "learning_rate": 0.0001864770058722676,
827
+ "loss": 0.0727,
828
+ "step": 117
829
+ },
830
+ {
831
+ "epoch": 0.7612903225806451,
832
+ "grad_norm": 0.09459308338109298,
833
+ "learning_rate": 0.00018609714898291718,
834
+ "loss": 0.074,
835
+ "step": 118
836
+ },
837
+ {
838
+ "epoch": 0.7677419354838709,
839
+ "grad_norm": 0.07703917957047136,
840
+ "learning_rate": 0.00018571242876167996,
841
+ "loss": 0.08,
842
+ "step": 119
843
+ },
844
+ {
845
+ "epoch": 0.7741935483870968,
846
+ "grad_norm": 0.09836589908180506,
847
+ "learning_rate": 0.0001853228669400784,
848
+ "loss": 0.0922,
849
+ "step": 120
850
+ },
851
+ {
852
+ "epoch": 0.7806451612903226,
853
+ "grad_norm": 0.09387479622355775,
854
+ "learning_rate": 0.00018492848552312014,
855
+ "loss": 0.1033,
856
+ "step": 121
857
+ },
858
+ {
859
+ "epoch": 0.7870967741935484,
860
+ "grad_norm": 0.12284239686014672,
861
+ "learning_rate": 0.00018452930678805536,
862
+ "loss": 0.0999,
863
+ "step": 122
864
+ },
865
+ {
866
+ "epoch": 0.7935483870967742,
867
+ "grad_norm": 0.09213360621981392,
868
+ "learning_rate": 0.00018412535328311814,
869
+ "loss": 0.0953,
870
+ "step": 123
871
+ },
872
+ {
873
+ "epoch": 0.8,
874
+ "grad_norm": 0.09837327897834967,
875
+ "learning_rate": 0.00018371664782625287,
876
+ "loss": 0.1015,
877
+ "step": 124
878
+ },
879
+ {
880
+ "epoch": 0.8064516129032258,
881
+ "grad_norm": 0.11241908687558025,
882
+ "learning_rate": 0.00018330321350382544,
883
+ "loss": 0.0871,
884
+ "step": 125
885
+ },
886
+ {
887
+ "epoch": 0.8129032258064516,
888
+ "grad_norm": 0.10016314695009264,
889
+ "learning_rate": 0.00018288507366931905,
890
+ "loss": 0.1017,
891
+ "step": 126
892
+ },
893
+ {
894
+ "epoch": 0.8193548387096774,
895
+ "grad_norm": 0.08602103688908509,
896
+ "learning_rate": 0.00018246225194201517,
897
+ "loss": 0.0812,
898
+ "step": 127
899
+ },
900
+ {
901
+ "epoch": 0.8258064516129032,
902
+ "grad_norm": 0.12818530303124728,
903
+ "learning_rate": 0.00018203477220565912,
904
+ "loss": 0.1021,
905
+ "step": 128
906
+ },
907
+ {
908
+ "epoch": 0.832258064516129,
909
+ "grad_norm": 0.10135096833159363,
910
+ "learning_rate": 0.00018160265860711134,
911
+ "loss": 0.1006,
912
+ "step": 129
913
+ },
914
+ {
915
+ "epoch": 0.8387096774193549,
916
+ "grad_norm": 0.06634065993081388,
917
+ "learning_rate": 0.00018116593555498307,
918
+ "loss": 0.0771,
919
+ "step": 130
920
+ },
921
+ {
922
+ "epoch": 0.8451612903225807,
923
+ "grad_norm": 0.08489626818724719,
924
+ "learning_rate": 0.0001807246277182578,
925
+ "loss": 0.0786,
926
+ "step": 131
927
+ },
928
+ {
929
+ "epoch": 0.8516129032258064,
930
+ "grad_norm": 0.08888467555852377,
931
+ "learning_rate": 0.0001802787600248977,
932
+ "loss": 0.0991,
933
+ "step": 132
934
+ },
935
+ {
936
+ "epoch": 0.8580645161290322,
937
+ "grad_norm": 0.10636042561644678,
938
+ "learning_rate": 0.0001798283576604356,
939
+ "loss": 0.1011,
940
+ "step": 133
941
+ },
942
+ {
943
+ "epoch": 0.864516129032258,
944
+ "grad_norm": 0.07381978120350188,
945
+ "learning_rate": 0.0001793734460665523,
946
+ "loss": 0.0942,
947
+ "step": 134
948
+ },
949
+ {
950
+ "epoch": 0.8709677419354839,
951
+ "grad_norm": 0.09141476973335388,
952
+ "learning_rate": 0.00017891405093963938,
953
+ "loss": 0.1003,
954
+ "step": 135
955
+ },
956
+ {
957
+ "epoch": 0.8774193548387097,
958
+ "grad_norm": 0.08895622256143133,
959
+ "learning_rate": 0.0001784501982293479,
960
+ "loss": 0.0852,
961
+ "step": 136
962
+ },
963
+ {
964
+ "epoch": 0.8838709677419355,
965
+ "grad_norm": 0.08177526392628556,
966
+ "learning_rate": 0.00017798191413712243,
967
+ "loss": 0.084,
968
+ "step": 137
969
+ },
970
+ {
971
+ "epoch": 0.8903225806451613,
972
+ "grad_norm": 0.07208124492736653,
973
+ "learning_rate": 0.0001775092251147211,
974
+ "loss": 0.0765,
975
+ "step": 138
976
+ },
977
+ {
978
+ "epoch": 0.896774193548387,
979
+ "grad_norm": 0.06475169326738762,
980
+ "learning_rate": 0.0001770321578627213,
981
+ "loss": 0.0677,
982
+ "step": 139
983
+ },
984
+ {
985
+ "epoch": 0.9032258064516129,
986
+ "grad_norm": 0.12805303578104438,
987
+ "learning_rate": 0.00017655073932901168,
988
+ "loss": 0.1159,
989
+ "step": 140
990
+ },
991
+ {
992
+ "epoch": 0.9096774193548387,
993
+ "grad_norm": 0.09062553054321057,
994
+ "learning_rate": 0.0001760649967072697,
995
+ "loss": 0.1001,
996
+ "step": 141
997
+ },
998
+ {
999
+ "epoch": 0.9161290322580645,
1000
+ "grad_norm": 0.09471211412797043,
1001
+ "learning_rate": 0.00017557495743542585,
1002
+ "loss": 0.0984,
1003
+ "step": 142
1004
+ },
1005
+ {
1006
+ "epoch": 0.9225806451612903,
1007
+ "grad_norm": 0.07126884163211589,
1008
+ "learning_rate": 0.00017508064919411344,
1009
+ "loss": 0.0675,
1010
+ "step": 143
1011
+ },
1012
+ {
1013
+ "epoch": 0.9290322580645162,
1014
+ "grad_norm": 0.06754737396081824,
1015
+ "learning_rate": 0.00017458209990510527,
1016
+ "loss": 0.0782,
1017
+ "step": 144
1018
+ },
1019
+ {
1020
+ "epoch": 0.9354838709677419,
1021
+ "grad_norm": 0.09114175386188283,
1022
+ "learning_rate": 0.00017407933772973637,
1023
+ "loss": 0.0955,
1024
+ "step": 145
1025
+ },
1026
+ {
1027
+ "epoch": 0.9419354838709677,
1028
+ "grad_norm": 0.09779279853308924,
1029
+ "learning_rate": 0.00017357239106731317,
1030
+ "loss": 0.1061,
1031
+ "step": 146
1032
+ },
1033
+ {
1034
+ "epoch": 0.9483870967741935,
1035
+ "grad_norm": 0.09679111364819645,
1036
+ "learning_rate": 0.00017306128855350942,
1037
+ "loss": 0.0942,
1038
+ "step": 147
1039
+ },
1040
+ {
1041
+ "epoch": 0.9548387096774194,
1042
+ "grad_norm": 0.1619352621242093,
1043
+ "learning_rate": 0.0001725460590587486,
1044
+ "loss": 0.1215,
1045
+ "step": 148
1046
+ },
1047
+ {
1048
+ "epoch": 0.9612903225806452,
1049
+ "grad_norm": 0.07218712567651438,
1050
+ "learning_rate": 0.00017202673168657318,
1051
+ "loss": 0.0716,
1052
+ "step": 149
1053
+ },
1054
+ {
1055
+ "epoch": 0.967741935483871,
1056
+ "grad_norm": 0.0768978967349938,
1057
+ "learning_rate": 0.0001715033357720006,
1058
+ "loss": 0.0921,
1059
+ "step": 150
1060
+ },
1061
+ {
1062
+ "epoch": 0.9741935483870968,
1063
+ "grad_norm": 0.0716182862543501,
1064
+ "learning_rate": 0.00017097590087986633,
1065
+ "loss": 0.069,
1066
+ "step": 151
1067
+ },
1068
+ {
1069
+ "epoch": 0.9806451612903225,
1070
+ "grad_norm": 0.09641833742826841,
1071
+ "learning_rate": 0.00017044445680315372,
1072
+ "loss": 0.0975,
1073
+ "step": 152
1074
+ },
1075
+ {
1076
+ "epoch": 0.9870967741935484,
1077
+ "grad_norm": 0.1015814477912073,
1078
+ "learning_rate": 0.00016990903356131124,
1079
+ "loss": 0.0935,
1080
+ "step": 153
1081
+ },
1082
+ {
1083
+ "epoch": 0.9935483870967742,
1084
+ "grad_norm": 0.07050697207500581,
1085
+ "learning_rate": 0.00016936966139855663,
1086
+ "loss": 0.0728,
1087
+ "step": 154
1088
+ },
1089
+ {
1090
+ "epoch": 1.0,
1091
+ "grad_norm": 0.12410114043097807,
1092
+ "learning_rate": 0.00016882637078216868,
1093
+ "loss": 0.0918,
1094
+ "step": 155
1095
+ },
1096
+ {
1097
+ "epoch": 1.0,
1098
+ "eval_loss": 0.08952951431274414,
1099
+ "eval_runtime": 27.6637,
1100
+ "eval_samples_per_second": 4.735,
1101
+ "eval_steps_per_second": 0.615,
1102
+ "step": 155
1103
+ },
1104
+ {
1105
+ "epoch": 1.0064516129032257,
1106
+ "grad_norm": 0.05504498458319807,
1107
+ "learning_rate": 0.0001682791924007661,
1108
+ "loss": 0.0464,
1109
+ "step": 156
1110
+ },
1111
+ {
1112
+ "epoch": 1.0129032258064516,
1113
+ "grad_norm": 0.06037793847523705,
1114
+ "learning_rate": 0.00016772815716257412,
1115
+ "loss": 0.0569,
1116
+ "step": 157
1117
+ },
1118
+ {
1119
+ "epoch": 1.0193548387096774,
1120
+ "grad_norm": 0.06519500890305997,
1121
+ "learning_rate": 0.0001671732961936785,
1122
+ "loss": 0.0785,
1123
+ "step": 158
1124
+ },
1125
+ {
1126
+ "epoch": 1.0258064516129033,
1127
+ "grad_norm": 0.06362711429608407,
1128
+ "learning_rate": 0.00016661464083626734,
1129
+ "loss": 0.0492,
1130
+ "step": 159
1131
+ },
1132
+ {
1133
+ "epoch": 1.032258064516129,
1134
+ "grad_norm": 0.059790795449393114,
1135
+ "learning_rate": 0.00016605222264686086,
1136
+ "loss": 0.0511,
1137
+ "step": 160
1138
+ },
1139
+ {
1140
+ "epoch": 1.038709677419355,
1141
+ "grad_norm": 0.062409758409412354,
1142
+ "learning_rate": 0.00016548607339452853,
1143
+ "loss": 0.0561,
1144
+ "step": 161
1145
+ },
1146
+ {
1147
+ "epoch": 1.0451612903225806,
1148
+ "grad_norm": 0.05212609330281915,
1149
+ "learning_rate": 0.00016491622505909482,
1150
+ "loss": 0.0482,
1151
+ "step": 162
1152
+ },
1153
+ {
1154
+ "epoch": 1.0516129032258064,
1155
+ "grad_norm": 0.07852785833231216,
1156
+ "learning_rate": 0.00016434270982933273,
1157
+ "loss": 0.0632,
1158
+ "step": 163
1159
+ },
1160
+ {
1161
+ "epoch": 1.0580645161290323,
1162
+ "grad_norm": 0.0844199396392266,
1163
+ "learning_rate": 0.0001637655601011454,
1164
+ "loss": 0.0634,
1165
+ "step": 164
1166
+ },
1167
+ {
1168
+ "epoch": 1.064516129032258,
1169
+ "grad_norm": 0.07478417013950381,
1170
+ "learning_rate": 0.00016318480847573642,
1171
+ "loss": 0.0705,
1172
+ "step": 165
1173
+ },
1174
+ {
1175
+ "epoch": 1.070967741935484,
1176
+ "grad_norm": 0.14677307886341195,
1177
+ "learning_rate": 0.00016260048775776804,
1178
+ "loss": 0.0707,
1179
+ "step": 166
1180
+ },
1181
+ {
1182
+ "epoch": 1.0774193548387097,
1183
+ "grad_norm": 0.11159415413369748,
1184
+ "learning_rate": 0.00016201263095350833,
1185
+ "loss": 0.0552,
1186
+ "step": 167
1187
+ },
1188
+ {
1189
+ "epoch": 1.0838709677419356,
1190
+ "grad_norm": 0.12431222248668082,
1191
+ "learning_rate": 0.0001614212712689668,
1192
+ "loss": 0.0521,
1193
+ "step": 168
1194
+ },
1195
+ {
1196
+ "epoch": 1.0903225806451613,
1197
+ "grad_norm": 0.08991938158139547,
1198
+ "learning_rate": 0.00016082644210801844,
1199
+ "loss": 0.0454,
1200
+ "step": 169
1201
+ },
1202
+ {
1203
+ "epoch": 1.096774193548387,
1204
+ "grad_norm": 0.08464763972774585,
1205
+ "learning_rate": 0.00016022817707051724,
1206
+ "loss": 0.0622,
1207
+ "step": 170
1208
+ },
1209
+ {
1210
+ "epoch": 1.103225806451613,
1211
+ "grad_norm": 0.12349871251730524,
1212
+ "learning_rate": 0.00015962650995039783,
1213
+ "loss": 0.0704,
1214
+ "step": 171
1215
+ },
1216
+ {
1217
+ "epoch": 1.1096774193548387,
1218
+ "grad_norm": 0.1309389973485375,
1219
+ "learning_rate": 0.00015902147473376694,
1220
+ "loss": 0.0711,
1221
+ "step": 172
1222
+ },
1223
+ {
1224
+ "epoch": 1.1161290322580646,
1225
+ "grad_norm": 0.06816581304698818,
1226
+ "learning_rate": 0.00015841310559698343,
1227
+ "loss": 0.0566,
1228
+ "step": 173
1229
+ },
1230
+ {
1231
+ "epoch": 1.1225806451612903,
1232
+ "grad_norm": 0.0628939350533328,
1233
+ "learning_rate": 0.0001578014369047279,
1234
+ "loss": 0.0515,
1235
+ "step": 174
1236
+ },
1237
+ {
1238
+ "epoch": 1.129032258064516,
1239
+ "grad_norm": 0.0859769654461784,
1240
+ "learning_rate": 0.00015718650320806142,
1241
+ "loss": 0.0666,
1242
+ "step": 175
1243
+ },
1244
+ {
1245
+ "epoch": 1.135483870967742,
1246
+ "grad_norm": 0.09102699765206346,
1247
+ "learning_rate": 0.00015656833924247398,
1248
+ "loss": 0.0617,
1249
+ "step": 176
1250
+ },
1251
+ {
1252
+ "epoch": 1.1419354838709677,
1253
+ "grad_norm": 0.0765372107398411,
1254
+ "learning_rate": 0.00015594697992592232,
1255
+ "loss": 0.0488,
1256
+ "step": 177
1257
+ },
1258
+ {
1259
+ "epoch": 1.1483870967741936,
1260
+ "grad_norm": 0.06699310113728325,
1261
+ "learning_rate": 0.00015532246035685756,
1262
+ "loss": 0.0573,
1263
+ "step": 178
1264
+ },
1265
+ {
1266
+ "epoch": 1.1548387096774193,
1267
+ "grad_norm": 0.08417544962609826,
1268
+ "learning_rate": 0.00015469481581224272,
1269
+ "loss": 0.0636,
1270
+ "step": 179
1271
+ },
1272
+ {
1273
+ "epoch": 1.1612903225806452,
1274
+ "grad_norm": 0.1377222230063782,
1275
+ "learning_rate": 0.00015406408174555976,
1276
+ "loss": 0.0675,
1277
+ "step": 180
1278
+ },
1279
+ {
1280
+ "epoch": 1.167741935483871,
1281
+ "grad_norm": 0.11567828351658707,
1282
+ "learning_rate": 0.0001534302937848073,
1283
+ "loss": 0.0694,
1284
+ "step": 181
1285
+ },
1286
+ {
1287
+ "epoch": 1.1741935483870969,
1288
+ "grad_norm": 0.07435102139494404,
1289
+ "learning_rate": 0.00015279348773048786,
1290
+ "loss": 0.0619,
1291
+ "step": 182
1292
+ },
1293
+ {
1294
+ "epoch": 1.1806451612903226,
1295
+ "grad_norm": 0.16550300010492666,
1296
+ "learning_rate": 0.00015215369955358566,
1297
+ "loss": 0.0863,
1298
+ "step": 183
1299
+ },
1300
+ {
1301
+ "epoch": 1.1870967741935483,
1302
+ "grad_norm": 0.12805046103524215,
1303
+ "learning_rate": 0.0001515109653935348,
1304
+ "loss": 0.0787,
1305
+ "step": 184
1306
+ },
1307
+ {
1308
+ "epoch": 1.1935483870967742,
1309
+ "grad_norm": 0.07302921753172271,
1310
+ "learning_rate": 0.00015086532155617784,
1311
+ "loss": 0.0616,
1312
+ "step": 185
1313
+ },
1314
+ {
1315
+ "epoch": 1.2,
1316
+ "grad_norm": 0.06678947449139945,
1317
+ "learning_rate": 0.00015021680451171498,
1318
+ "loss": 0.049,
1319
+ "step": 186
1320
+ },
1321
+ {
1322
+ "epoch": 1.206451612903226,
1323
+ "grad_norm": 0.07635737870842979,
1324
+ "learning_rate": 0.00014956545089264407,
1325
+ "loss": 0.06,
1326
+ "step": 187
1327
+ },
1328
+ {
1329
+ "epoch": 1.2129032258064516,
1330
+ "grad_norm": 0.09502911856234499,
1331
+ "learning_rate": 0.0001489112974916912,
1332
+ "loss": 0.0717,
1333
+ "step": 188
1334
+ },
1335
+ {
1336
+ "epoch": 1.2193548387096773,
1337
+ "grad_norm": 0.10739599373969563,
1338
+ "learning_rate": 0.00014825438125973264,
1339
+ "loss": 0.0695,
1340
+ "step": 189
1341
+ },
1342
+ {
1343
+ "epoch": 1.2258064516129032,
1344
+ "grad_norm": 0.07169666556967867,
1345
+ "learning_rate": 0.00014759473930370736,
1346
+ "loss": 0.0457,
1347
+ "step": 190
1348
+ },
1349
+ {
1350
+ "epoch": 1.232258064516129,
1351
+ "grad_norm": 0.0938431700551618,
1352
+ "learning_rate": 0.0001469324088845212,
1353
+ "loss": 0.0512,
1354
+ "step": 191
1355
+ },
1356
+ {
1357
+ "epoch": 1.238709677419355,
1358
+ "grad_norm": 0.08141491065850508,
1359
+ "learning_rate": 0.00014626742741494206,
1360
+ "loss": 0.0636,
1361
+ "step": 192
1362
+ },
1363
+ {
1364
+ "epoch": 1.2451612903225806,
1365
+ "grad_norm": 0.07323985237455122,
1366
+ "learning_rate": 0.00014559983245748638,
1367
+ "loss": 0.0547,
1368
+ "step": 193
1369
+ },
1370
+ {
1371
+ "epoch": 1.2516129032258063,
1372
+ "grad_norm": 0.07650175159597551,
1373
+ "learning_rate": 0.00014492966172229777,
1374
+ "loss": 0.0589,
1375
+ "step": 194
1376
+ },
1377
+ {
1378
+ "epoch": 1.2580645161290323,
1379
+ "grad_norm": 0.06313573515968769,
1380
+ "learning_rate": 0.00014425695306501658,
1381
+ "loss": 0.047,
1382
+ "step": 195
1383
+ },
1384
+ {
1385
+ "epoch": 1.2645161290322582,
1386
+ "grad_norm": 0.08819272769189934,
1387
+ "learning_rate": 0.00014358174448464154,
1388
+ "loss": 0.0578,
1389
+ "step": 196
1390
+ },
1391
+ {
1392
+ "epoch": 1.270967741935484,
1393
+ "grad_norm": 0.1258683666392954,
1394
+ "learning_rate": 0.00014290407412138366,
1395
+ "loss": 0.0694,
1396
+ "step": 197
1397
+ },
1398
+ {
1399
+ "epoch": 1.2774193548387096,
1400
+ "grad_norm": 0.11414016288586973,
1401
+ "learning_rate": 0.00014222398025451135,
1402
+ "loss": 0.0604,
1403
+ "step": 198
1404
+ },
1405
+ {
1406
+ "epoch": 1.2838709677419355,
1407
+ "grad_norm": 0.11137244002349718,
1408
+ "learning_rate": 0.00014154150130018866,
1409
+ "loss": 0.0756,
1410
+ "step": 199
1411
+ },
1412
+ {
1413
+ "epoch": 1.2903225806451613,
1414
+ "grad_norm": 0.07153259224988148,
1415
+ "learning_rate": 0.0001408566758093048,
1416
+ "loss": 0.0538,
1417
+ "step": 200
1418
+ },
1419
+ {
1420
+ "epoch": 1.2967741935483872,
1421
+ "grad_norm": 0.09526746882665606,
1422
+ "learning_rate": 0.00014016954246529696,
1423
+ "loss": 0.0494,
1424
+ "step": 201
1425
+ },
1426
+ {
1427
+ "epoch": 1.303225806451613,
1428
+ "grad_norm": 0.08649485022046847,
1429
+ "learning_rate": 0.00013948014008196487,
1430
+ "loss": 0.0553,
1431
+ "step": 202
1432
+ },
1433
+ {
1434
+ "epoch": 1.3096774193548386,
1435
+ "grad_norm": 0.1050606321924827,
1436
+ "learning_rate": 0.0001387885076012785,
1437
+ "loss": 0.0726,
1438
+ "step": 203
1439
+ },
1440
+ {
1441
+ "epoch": 1.3161290322580645,
1442
+ "grad_norm": 0.12765438794483042,
1443
+ "learning_rate": 0.00013809468409117846,
1444
+ "loss": 0.084,
1445
+ "step": 204
1446
+ },
1447
+ {
1448
+ "epoch": 1.3225806451612903,
1449
+ "grad_norm": 0.0778070748347935,
1450
+ "learning_rate": 0.00013739870874336898,
1451
+ "loss": 0.0549,
1452
+ "step": 205
1453
+ },
1454
+ {
1455
+ "epoch": 1.3290322580645162,
1456
+ "grad_norm": 0.08829501946025207,
1457
+ "learning_rate": 0.00013670062087110422,
1458
+ "loss": 0.054,
1459
+ "step": 206
1460
+ },
1461
+ {
1462
+ "epoch": 1.335483870967742,
1463
+ "grad_norm": 0.09272743824756946,
1464
+ "learning_rate": 0.00013600045990696762,
1465
+ "loss": 0.0533,
1466
+ "step": 207
1467
+ },
1468
+ {
1469
+ "epoch": 1.3419354838709676,
1470
+ "grad_norm": 0.09752395648449025,
1471
+ "learning_rate": 0.0001352982654006444,
1472
+ "loss": 0.0682,
1473
+ "step": 208
1474
+ },
1475
+ {
1476
+ "epoch": 1.3483870967741935,
1477
+ "grad_norm": 0.0787282052904063,
1478
+ "learning_rate": 0.00013459407701668763,
1479
+ "loss": 0.061,
1480
+ "step": 209
1481
+ },
1482
+ {
1483
+ "epoch": 1.3548387096774195,
1484
+ "grad_norm": 0.09965818076523,
1485
+ "learning_rate": 0.00013388793453227767,
1486
+ "loss": 0.0708,
1487
+ "step": 210
1488
+ },
1489
+ {
1490
+ "epoch": 1.3612903225806452,
1491
+ "grad_norm": 0.08510816398839181,
1492
+ "learning_rate": 0.0001331798778349752,
1493
+ "loss": 0.0612,
1494
+ "step": 211
1495
+ },
1496
+ {
1497
+ "epoch": 1.367741935483871,
1498
+ "grad_norm": 0.13415837375152884,
1499
+ "learning_rate": 0.00013246994692046836,
1500
+ "loss": 0.0589,
1501
+ "step": 212
1502
+ },
1503
+ {
1504
+ "epoch": 1.3741935483870968,
1505
+ "grad_norm": 0.10509841268799006,
1506
+ "learning_rate": 0.00013175818189031327,
1507
+ "loss": 0.0771,
1508
+ "step": 213
1509
+ },
1510
+ {
1511
+ "epoch": 1.3806451612903226,
1512
+ "grad_norm": 0.10611783573942027,
1513
+ "learning_rate": 0.00013104462294966896,
1514
+ "loss": 0.0772,
1515
+ "step": 214
1516
+ },
1517
+ {
1518
+ "epoch": 1.3870967741935485,
1519
+ "grad_norm": 0.10192686799206796,
1520
+ "learning_rate": 0.00013032931040502627,
1521
+ "loss": 0.0679,
1522
+ "step": 215
1523
+ },
1524
+ {
1525
+ "epoch": 1.3935483870967742,
1526
+ "grad_norm": 0.0734691690524852,
1527
+ "learning_rate": 0.00012961228466193116,
1528
+ "loss": 0.0536,
1529
+ "step": 216
1530
+ },
1531
+ {
1532
+ "epoch": 1.4,
1533
+ "grad_norm": 0.08238968788193186,
1534
+ "learning_rate": 0.00012889358622270223,
1535
+ "loss": 0.0469,
1536
+ "step": 217
1537
+ },
1538
+ {
1539
+ "epoch": 1.4064516129032258,
1540
+ "grad_norm": 0.107308663713204,
1541
+ "learning_rate": 0.00012817325568414297,
1542
+ "loss": 0.0472,
1543
+ "step": 218
1544
+ },
1545
+ {
1546
+ "epoch": 1.4129032258064516,
1547
+ "grad_norm": 0.08899570061026768,
1548
+ "learning_rate": 0.00012745133373524853,
1549
+ "loss": 0.0621,
1550
+ "step": 219
1551
+ },
1552
+ {
1553
+ "epoch": 1.4193548387096775,
1554
+ "grad_norm": 0.09218740393476688,
1555
+ "learning_rate": 0.0001267278611549073,
1556
+ "loss": 0.0449,
1557
+ "step": 220
1558
+ },
1559
+ {
1560
+ "epoch": 1.4258064516129032,
1561
+ "grad_norm": 0.17826386309202488,
1562
+ "learning_rate": 0.00012600287880959763,
1563
+ "loss": 0.0617,
1564
+ "step": 221
1565
+ },
1566
+ {
1567
+ "epoch": 1.432258064516129,
1568
+ "grad_norm": 0.10232360588380689,
1569
+ "learning_rate": 0.0001252764276510792,
1570
+ "loss": 0.0636,
1571
+ "step": 222
1572
+ },
1573
+ {
1574
+ "epoch": 1.4387096774193548,
1575
+ "grad_norm": 0.07733076855697436,
1576
+ "learning_rate": 0.00012454854871407994,
1577
+ "loss": 0.0524,
1578
+ "step": 223
1579
+ },
1580
+ {
1581
+ "epoch": 1.4451612903225808,
1582
+ "grad_norm": 0.1006676835885761,
1583
+ "learning_rate": 0.00012381928311397806,
1584
+ "loss": 0.057,
1585
+ "step": 224
1586
+ },
1587
+ {
1588
+ "epoch": 1.4516129032258065,
1589
+ "grad_norm": 0.080575053343473,
1590
+ "learning_rate": 0.0001230886720444796,
1591
+ "loss": 0.0663,
1592
+ "step": 225
1593
+ },
1594
+ {
1595
+ "epoch": 1.4580645161290322,
1596
+ "grad_norm": 0.1246560932677115,
1597
+ "learning_rate": 0.00012235675677529158,
1598
+ "loss": 0.0652,
1599
+ "step": 226
1600
+ },
1601
+ {
1602
+ "epoch": 1.4645161290322581,
1603
+ "grad_norm": 0.10632779078755829,
1604
+ "learning_rate": 0.00012162357864979072,
1605
+ "loss": 0.065,
1606
+ "step": 227
1607
+ },
1608
+ {
1609
+ "epoch": 1.4709677419354839,
1610
+ "grad_norm": 0.095566354892694,
1611
+ "learning_rate": 0.00012088917908268821,
1612
+ "loss": 0.0704,
1613
+ "step": 228
1614
+ },
1615
+ {
1616
+ "epoch": 1.4774193548387098,
1617
+ "grad_norm": 0.1101864261825649,
1618
+ "learning_rate": 0.00012015359955769021,
1619
+ "loss": 0.069,
1620
+ "step": 229
1621
+ },
1622
+ {
1623
+ "epoch": 1.4838709677419355,
1624
+ "grad_norm": 0.08091933130202467,
1625
+ "learning_rate": 0.00011941688162515467,
1626
+ "loss": 0.0513,
1627
+ "step": 230
1628
+ },
1629
+ {
1630
+ "epoch": 1.4903225806451612,
1631
+ "grad_norm": 0.12491882510784613,
1632
+ "learning_rate": 0.00011867906689974428,
1633
+ "loss": 0.0481,
1634
+ "step": 231
1635
+ },
1636
+ {
1637
+ "epoch": 1.4967741935483871,
1638
+ "grad_norm": 0.13567923305564322,
1639
+ "learning_rate": 0.00011794019705807584,
1640
+ "loss": 0.0689,
1641
+ "step": 232
1642
+ },
1643
+ {
1644
+ "epoch": 1.5032258064516129,
1645
+ "grad_norm": 0.15901158424809853,
1646
+ "learning_rate": 0.00011720031383636585,
1647
+ "loss": 0.0647,
1648
+ "step": 233
1649
+ },
1650
+ {
1651
+ "epoch": 1.5096774193548388,
1652
+ "grad_norm": 0.10314424853828444,
1653
+ "learning_rate": 0.00011645945902807341,
1654
+ "loss": 0.0596,
1655
+ "step": 234
1656
+ },
1657
+ {
1658
+ "epoch": 1.5161290322580645,
1659
+ "grad_norm": 0.08231901481570739,
1660
+ "learning_rate": 0.00011571767448153901,
1661
+ "loss": 0.0425,
1662
+ "step": 235
1663
+ },
1664
+ {
1665
+ "epoch": 1.5225806451612902,
1666
+ "grad_norm": 0.24497759631459304,
1667
+ "learning_rate": 0.00011497500209762102,
1668
+ "loss": 0.0861,
1669
+ "step": 236
1670
+ },
1671
+ {
1672
+ "epoch": 1.5290322580645161,
1673
+ "grad_norm": 0.08192342540576594,
1674
+ "learning_rate": 0.00011423148382732853,
1675
+ "loss": 0.037,
1676
+ "step": 237
1677
+ },
1678
+ {
1679
+ "epoch": 1.535483870967742,
1680
+ "grad_norm": 0.086893577170591,
1681
+ "learning_rate": 0.00011348716166945195,
1682
+ "loss": 0.053,
1683
+ "step": 238
1684
+ },
1685
+ {
1686
+ "epoch": 1.5419354838709678,
1687
+ "grad_norm": 0.10993883303276072,
1688
+ "learning_rate": 0.0001127420776681905,
1689
+ "loss": 0.0584,
1690
+ "step": 239
1691
+ },
1692
+ {
1693
+ "epoch": 1.5483870967741935,
1694
+ "grad_norm": 0.08488031387161675,
1695
+ "learning_rate": 0.00011199627391077732,
1696
+ "loss": 0.0618,
1697
+ "step": 240
1698
+ },
1699
+ {
1700
+ "epoch": 1.5548387096774192,
1701
+ "grad_norm": 0.059796713120191955,
1702
+ "learning_rate": 0.00011124979252510208,
1703
+ "loss": 0.0468,
1704
+ "step": 241
1705
+ },
1706
+ {
1707
+ "epoch": 1.5612903225806452,
1708
+ "grad_norm": 0.1333781764848824,
1709
+ "learning_rate": 0.0001105026756773314,
1710
+ "loss": 0.0435,
1711
+ "step": 242
1712
+ },
1713
+ {
1714
+ "epoch": 1.567741935483871,
1715
+ "grad_norm": 0.13677532337123358,
1716
+ "learning_rate": 0.00010975496556952682,
1717
+ "loss": 0.0822,
1718
+ "step": 243
1719
+ },
1720
+ {
1721
+ "epoch": 1.5741935483870968,
1722
+ "grad_norm": 0.07575070108462173,
1723
+ "learning_rate": 0.00010900670443726135,
1724
+ "loss": 0.0518,
1725
+ "step": 244
1726
+ },
1727
+ {
1728
+ "epoch": 1.5806451612903225,
1729
+ "grad_norm": 0.10448261881956887,
1730
+ "learning_rate": 0.00010825793454723325,
1731
+ "loss": 0.0754,
1732
+ "step": 245
1733
+ },
1734
+ {
1735
+ "epoch": 1.5870967741935482,
1736
+ "grad_norm": 0.1295950737836306,
1737
+ "learning_rate": 0.00010750869819487883,
1738
+ "loss": 0.0745,
1739
+ "step": 246
1740
+ },
1741
+ {
1742
+ "epoch": 1.5935483870967742,
1743
+ "grad_norm": 0.09240489021108271,
1744
+ "learning_rate": 0.00010675903770198333,
1745
+ "loss": 0.067,
1746
+ "step": 247
1747
+ },
1748
+ {
1749
+ "epoch": 1.6,
1750
+ "grad_norm": 0.07808190236709202,
1751
+ "learning_rate": 0.00010600899541429004,
1752
+ "loss": 0.0546,
1753
+ "step": 248
1754
+ },
1755
+ {
1756
+ "epoch": 1.6064516129032258,
1757
+ "grad_norm": 0.0790414641966529,
1758
+ "learning_rate": 0.00010525861369910877,
1759
+ "loss": 0.0498,
1760
+ "step": 249
1761
+ },
1762
+ {
1763
+ "epoch": 1.6129032258064515,
1764
+ "grad_norm": 0.08616829997306262,
1765
+ "learning_rate": 0.00010450793494292224,
1766
+ "loss": 0.0655,
1767
+ "step": 250
1768
+ },
1769
+ {
1770
+ "epoch": 1.6193548387096774,
1771
+ "grad_norm": 0.08883827111615517,
1772
+ "learning_rate": 0.00010375700154899208,
1773
+ "loss": 0.0657,
1774
+ "step": 251
1775
+ },
1776
+ {
1777
+ "epoch": 1.6258064516129034,
1778
+ "grad_norm": 0.09734167988079584,
1779
+ "learning_rate": 0.00010300585593496348,
1780
+ "loss": 0.0614,
1781
+ "step": 252
1782
+ },
1783
+ {
1784
+ "epoch": 1.632258064516129,
1785
+ "grad_norm": 0.08926667751389035,
1786
+ "learning_rate": 0.00010225454053046921,
1787
+ "loss": 0.0562,
1788
+ "step": 253
1789
+ },
1790
+ {
1791
+ "epoch": 1.6387096774193548,
1792
+ "grad_norm": 0.13520312388410863,
1793
+ "learning_rate": 0.00010150309777473306,
1794
+ "loss": 0.0731,
1795
+ "step": 254
1796
+ },
1797
+ {
1798
+ "epoch": 1.6451612903225805,
1799
+ "grad_norm": 0.08417129846577816,
1800
+ "learning_rate": 0.0001007515701141722,
1801
+ "loss": 0.0496,
1802
+ "step": 255
1803
+ },
1804
+ {
1805
+ "epoch": 1.6516129032258065,
1806
+ "grad_norm": 0.15813812964913973,
1807
+ "learning_rate": 0.0001,
1808
+ "loss": 0.0622,
1809
+ "step": 256
1810
+ },
1811
+ {
1812
+ "epoch": 1.6580645161290324,
1813
+ "grad_norm": 0.07426217779998688,
1814
+ "learning_rate": 9.924842988582782e-05,
1815
+ "loss": 0.0487,
1816
+ "step": 257
1817
+ },
1818
+ {
1819
+ "epoch": 1.664516129032258,
1820
+ "grad_norm": 0.14075828336643512,
1821
+ "learning_rate": 9.849690222526698e-05,
1822
+ "loss": 0.0623,
1823
+ "step": 258
1824
+ },
1825
+ {
1826
+ "epoch": 1.6709677419354838,
1827
+ "grad_norm": 0.13317164150901403,
1828
+ "learning_rate": 9.77454594695308e-05,
1829
+ "loss": 0.0551,
1830
+ "step": 259
1831
+ },
1832
+ {
1833
+ "epoch": 1.6774193548387095,
1834
+ "grad_norm": 0.08655308767786873,
1835
+ "learning_rate": 9.699414406503654e-05,
1836
+ "loss": 0.0678,
1837
+ "step": 260
1838
+ },
1839
+ {
1840
+ "epoch": 1.6838709677419355,
1841
+ "grad_norm": 0.11118369085651197,
1842
+ "learning_rate": 9.624299845100795e-05,
1843
+ "loss": 0.0622,
1844
+ "step": 261
1845
+ },
1846
+ {
1847
+ "epoch": 1.6903225806451614,
1848
+ "grad_norm": 0.11077421899130901,
1849
+ "learning_rate": 9.549206505707777e-05,
1850
+ "loss": 0.0745,
1851
+ "step": 262
1852
+ },
1853
+ {
1854
+ "epoch": 1.696774193548387,
1855
+ "grad_norm": 0.08190755444484397,
1856
+ "learning_rate": 9.474138630089124e-05,
1857
+ "loss": 0.0537,
1858
+ "step": 263
1859
+ },
1860
+ {
1861
+ "epoch": 1.7032258064516128,
1862
+ "grad_norm": 0.1113159750162081,
1863
+ "learning_rate": 9.399100458570997e-05,
1864
+ "loss": 0.0691,
1865
+ "step": 264
1866
+ },
1867
+ {
1868
+ "epoch": 1.7096774193548387,
1869
+ "grad_norm": 0.09279661384255962,
1870
+ "learning_rate": 9.324096229801674e-05,
1871
+ "loss": 0.0583,
1872
+ "step": 265
1873
+ },
1874
+ {
1875
+ "epoch": 1.7161290322580647,
1876
+ "grad_norm": 0.07523224454997395,
1877
+ "learning_rate": 9.249130180512118e-05,
1878
+ "loss": 0.0621,
1879
+ "step": 266
1880
+ },
1881
+ {
1882
+ "epoch": 1.7225806451612904,
1883
+ "grad_norm": 0.09015314442775083,
1884
+ "learning_rate": 9.174206545276677e-05,
1885
+ "loss": 0.0669,
1886
+ "step": 267
1887
+ },
1888
+ {
1889
+ "epoch": 1.729032258064516,
1890
+ "grad_norm": 0.10636283133034866,
1891
+ "learning_rate": 9.099329556273866e-05,
1892
+ "loss": 0.0739,
1893
+ "step": 268
1894
+ },
1895
+ {
1896
+ "epoch": 1.7354838709677418,
1897
+ "grad_norm": 0.1416802448850876,
1898
+ "learning_rate": 9.024503443047319e-05,
1899
+ "loss": 0.0684,
1900
+ "step": 269
1901
+ },
1902
+ {
1903
+ "epoch": 1.7419354838709677,
1904
+ "grad_norm": 0.09949812802402141,
1905
+ "learning_rate": 8.949732432266866e-05,
1906
+ "loss": 0.0517,
1907
+ "step": 270
1908
+ },
1909
+ {
1910
+ "epoch": 1.7483870967741937,
1911
+ "grad_norm": 0.09911727857006153,
1912
+ "learning_rate": 8.875020747489794e-05,
1913
+ "loss": 0.0695,
1914
+ "step": 271
1915
+ },
1916
+ {
1917
+ "epoch": 1.7548387096774194,
1918
+ "grad_norm": 0.09965173501261688,
1919
+ "learning_rate": 8.800372608922271e-05,
1920
+ "loss": 0.0601,
1921
+ "step": 272
1922
+ },
1923
+ {
1924
+ "epoch": 1.761290322580645,
1925
+ "grad_norm": 0.11483628184027991,
1926
+ "learning_rate": 8.72579223318095e-05,
1927
+ "loss": 0.0747,
1928
+ "step": 273
1929
+ },
1930
+ {
1931
+ "epoch": 1.7677419354838708,
1932
+ "grad_norm": 0.08398542909094164,
1933
+ "learning_rate": 8.651283833054809e-05,
1934
+ "loss": 0.0545,
1935
+ "step": 274
1936
+ },
1937
+ {
1938
+ "epoch": 1.7741935483870968,
1939
+ "grad_norm": 0.09206084337768013,
1940
+ "learning_rate": 8.57685161726715e-05,
1941
+ "loss": 0.0626,
1942
+ "step": 275
1943
+ },
1944
+ {
1945
+ "epoch": 1.7806451612903227,
1946
+ "grad_norm": 0.10640419292629341,
1947
+ "learning_rate": 8.5024997902379e-05,
1948
+ "loss": 0.0694,
1949
+ "step": 276
1950
+ },
1951
+ {
1952
+ "epoch": 1.7870967741935484,
1953
+ "grad_norm": 0.09655305743665399,
1954
+ "learning_rate": 8.428232551846101e-05,
1955
+ "loss": 0.063,
1956
+ "step": 277
1957
+ },
1958
+ {
1959
+ "epoch": 1.793548387096774,
1960
+ "grad_norm": 0.10280172089235683,
1961
+ "learning_rate": 8.35405409719266e-05,
1962
+ "loss": 0.0628,
1963
+ "step": 278
1964
+ },
1965
+ {
1966
+ "epoch": 1.8,
1967
+ "grad_norm": 0.0924442773479908,
1968
+ "learning_rate": 8.279968616363418e-05,
1969
+ "loss": 0.0614,
1970
+ "step": 279
1971
+ },
1972
+ {
1973
+ "epoch": 1.8064516129032258,
1974
+ "grad_norm": 0.09056943407276584,
1975
+ "learning_rate": 8.205980294192421e-05,
1976
+ "loss": 0.0587,
1977
+ "step": 280
1978
+ },
1979
+ {
1980
+ "epoch": 1.8129032258064517,
1981
+ "grad_norm": 0.08536247550150874,
1982
+ "learning_rate": 8.132093310025571e-05,
1983
+ "loss": 0.0457,
1984
+ "step": 281
1985
+ },
1986
+ {
1987
+ "epoch": 1.8193548387096774,
1988
+ "grad_norm": 0.10278594457682778,
1989
+ "learning_rate": 8.058311837484535e-05,
1990
+ "loss": 0.0743,
1991
+ "step": 282
1992
+ },
1993
+ {
1994
+ "epoch": 1.8258064516129031,
1995
+ "grad_norm": 0.10489767053221469,
1996
+ "learning_rate": 7.984640044230983e-05,
1997
+ "loss": 0.059,
1998
+ "step": 283
1999
+ },
2000
+ {
2001
+ "epoch": 1.832258064516129,
2002
+ "grad_norm": 0.07066039733968037,
2003
+ "learning_rate": 7.911082091731181e-05,
2004
+ "loss": 0.05,
2005
+ "step": 284
2006
+ },
2007
+ {
2008
+ "epoch": 1.838709677419355,
2009
+ "grad_norm": 0.08869091516941932,
2010
+ "learning_rate": 7.837642135020929e-05,
2011
+ "loss": 0.0468,
2012
+ "step": 285
2013
+ },
2014
+ {
2015
+ "epoch": 1.8451612903225807,
2016
+ "grad_norm": 0.07614529156417063,
2017
+ "learning_rate": 7.764324322470841e-05,
2018
+ "loss": 0.0504,
2019
+ "step": 286
2020
+ },
2021
+ {
2022
+ "epoch": 1.8516129032258064,
2023
+ "grad_norm": 0.12289914291233693,
2024
+ "learning_rate": 7.691132795552043e-05,
2025
+ "loss": 0.0654,
2026
+ "step": 287
2027
+ },
2028
+ {
2029
+ "epoch": 1.8580645161290321,
2030
+ "grad_norm": 0.19187133428553324,
2031
+ "learning_rate": 7.618071688602199e-05,
2032
+ "loss": 0.0819,
2033
+ "step": 288
2034
+ },
2035
+ {
2036
+ "epoch": 1.864516129032258,
2037
+ "grad_norm": 0.1132288808580514,
2038
+ "learning_rate": 7.54514512859201e-05,
2039
+ "loss": 0.068,
2040
+ "step": 289
2041
+ },
2042
+ {
2043
+ "epoch": 1.870967741935484,
2044
+ "grad_norm": 0.213823719636533,
2045
+ "learning_rate": 7.472357234892082e-05,
2046
+ "loss": 0.0761,
2047
+ "step": 290
2048
+ },
2049
+ {
2050
+ "epoch": 1.8774193548387097,
2051
+ "grad_norm": 0.08954961479842181,
2052
+ "learning_rate": 7.399712119040238e-05,
2053
+ "loss": 0.0599,
2054
+ "step": 291
2055
+ },
2056
+ {
2057
+ "epoch": 1.8838709677419354,
2058
+ "grad_norm": 0.10264188935178613,
2059
+ "learning_rate": 7.327213884509272e-05,
2060
+ "loss": 0.0597,
2061
+ "step": 292
2062
+ },
2063
+ {
2064
+ "epoch": 1.8903225806451613,
2065
+ "grad_norm": 0.12757793483602733,
2066
+ "learning_rate": 7.254866626475152e-05,
2067
+ "loss": 0.0736,
2068
+ "step": 293
2069
+ },
2070
+ {
2071
+ "epoch": 1.896774193548387,
2072
+ "grad_norm": 0.1424378202330991,
2073
+ "learning_rate": 7.182674431585704e-05,
2074
+ "loss": 0.0758,
2075
+ "step": 294
2076
+ },
2077
+ {
2078
+ "epoch": 1.903225806451613,
2079
+ "grad_norm": 0.09267218373713473,
2080
+ "learning_rate": 7.110641377729778e-05,
2081
+ "loss": 0.0602,
2082
+ "step": 295
2083
+ },
2084
+ {
2085
+ "epoch": 1.9096774193548387,
2086
+ "grad_norm": 0.07573069220027309,
2087
+ "learning_rate": 7.038771533806884e-05,
2088
+ "loss": 0.0479,
2089
+ "step": 296
2090
+ },
2091
+ {
2092
+ "epoch": 1.9161290322580644,
2093
+ "grad_norm": 0.11850380653093652,
2094
+ "learning_rate": 6.967068959497376e-05,
2095
+ "loss": 0.061,
2096
+ "step": 297
2097
+ },
2098
+ {
2099
+ "epoch": 1.9225806451612903,
2100
+ "grad_norm": 0.0952951197418935,
2101
+ "learning_rate": 6.895537705033108e-05,
2102
+ "loss": 0.0719,
2103
+ "step": 298
2104
+ },
2105
+ {
2106
+ "epoch": 1.9290322580645163,
2107
+ "grad_norm": 0.0869206540087956,
2108
+ "learning_rate": 6.824181810968675e-05,
2109
+ "loss": 0.0614,
2110
+ "step": 299
2111
+ },
2112
+ {
2113
+ "epoch": 1.935483870967742,
2114
+ "grad_norm": 0.11514530265371259,
2115
+ "learning_rate": 6.753005307953167e-05,
2116
+ "loss": 0.0631,
2117
+ "step": 300
2118
+ },
2119
+ {
2120
+ "epoch": 1.9419354838709677,
2121
+ "grad_norm": 0.113758246927865,
2122
+ "learning_rate": 6.682012216502484e-05,
2123
+ "loss": 0.0737,
2124
+ "step": 301
2125
+ },
2126
+ {
2127
+ "epoch": 1.9483870967741934,
2128
+ "grad_norm": 0.1202740564887612,
2129
+ "learning_rate": 6.611206546772237e-05,
2130
+ "loss": 0.0665,
2131
+ "step": 302
2132
+ },
2133
+ {
2134
+ "epoch": 1.9548387096774194,
2135
+ "grad_norm": 0.12119681869029483,
2136
+ "learning_rate": 6.54059229833124e-05,
2137
+ "loss": 0.0617,
2138
+ "step": 303
2139
+ },
2140
+ {
2141
+ "epoch": 1.9612903225806453,
2142
+ "grad_norm": 0.11167959831458651,
2143
+ "learning_rate": 6.47017345993556e-05,
2144
+ "loss": 0.0636,
2145
+ "step": 304
2146
+ },
2147
+ {
2148
+ "epoch": 1.967741935483871,
2149
+ "grad_norm": 0.10236314721384843,
2150
+ "learning_rate": 6.39995400930324e-05,
2151
+ "loss": 0.0691,
2152
+ "step": 305
2153
+ },
2154
+ {
2155
+ "epoch": 1.9741935483870967,
2156
+ "grad_norm": 0.08978452227249356,
2157
+ "learning_rate": 6.329937912889582e-05,
2158
+ "loss": 0.0486,
2159
+ "step": 306
2160
+ },
2161
+ {
2162
+ "epoch": 1.9806451612903224,
2163
+ "grad_norm": 0.09402215683973497,
2164
+ "learning_rate": 6.260129125663106e-05,
2165
+ "loss": 0.0575,
2166
+ "step": 307
2167
+ },
2168
+ {
2169
+ "epoch": 1.9870967741935484,
2170
+ "grad_norm": 0.09176207813711797,
2171
+ "learning_rate": 6.190531590882159e-05,
2172
+ "loss": 0.0616,
2173
+ "step": 308
2174
+ },
2175
+ {
2176
+ "epoch": 1.9935483870967743,
2177
+ "grad_norm": 0.1461148677177572,
2178
+ "learning_rate": 6.121149239872151e-05,
2179
+ "loss": 0.084,
2180
+ "step": 309
2181
+ },
2182
+ {
2183
+ "epoch": 2.0,
2184
+ "grad_norm": 0.0936208966101867,
2185
+ "learning_rate": 6.051985991803517e-05,
2186
+ "loss": 0.0463,
2187
+ "step": 310
2188
+ },
2189
+ {
2190
+ "epoch": 2.0,
2191
+ "eval_loss": 0.09596683084964752,
2192
+ "eval_runtime": 25.5767,
2193
+ "eval_samples_per_second": 5.122,
2194
+ "eval_steps_per_second": 0.665,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 2.0064516129032257,
2199
+ "grad_norm": 0.06773450997938296,
2200
+ "learning_rate": 5.983045753470308e-05,
2201
+ "loss": 0.0453,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 2.0129032258064514,
2206
+ "grad_norm": 0.05341229626959274,
2207
+ "learning_rate": 5.9143324190695196e-05,
2208
+ "loss": 0.036,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 2.0193548387096776,
2213
+ "grad_norm": 0.06711247984899421,
2214
+ "learning_rate": 5.845849869981137e-05,
2215
+ "loss": 0.046,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 2.0258064516129033,
2220
+ "grad_norm": 0.061859413521882546,
2221
+ "learning_rate": 5.777601974548866e-05,
2222
+ "loss": 0.0352,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 2.032258064516129,
2227
+ "grad_norm": 0.05446833363095474,
2228
+ "learning_rate": 5.709592587861637e-05,
2229
+ "loss": 0.0369,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 2.0387096774193547,
2234
+ "grad_norm": 0.0782453373649888,
2235
+ "learning_rate": 5.6418255515358486e-05,
2236
+ "loss": 0.0349,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 2.0451612903225804,
2241
+ "grad_norm": 0.04790490679204087,
2242
+ "learning_rate": 5.574304693498346e-05,
2243
+ "loss": 0.0308,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 2.0516129032258066,
2248
+ "grad_norm": 0.062494284774837545,
2249
+ "learning_rate": 5.507033827770225e-05,
2250
+ "loss": 0.0353,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 2.0580645161290323,
2255
+ "grad_norm": 0.07037383356374984,
2256
+ "learning_rate": 5.4400167542513636e-05,
2257
+ "loss": 0.0412,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 2.064516129032258,
2262
+ "grad_norm": 0.08297196040492472,
2263
+ "learning_rate": 5.3732572585057974e-05,
2264
+ "loss": 0.045,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 2.0709677419354837,
2269
+ "grad_norm": 0.05677712601652311,
2270
+ "learning_rate": 5.306759111547881e-05,
2271
+ "loss": 0.0314,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 2.07741935483871,
2276
+ "grad_norm": 0.10970235904680202,
2277
+ "learning_rate": 5.240526069629265e-05,
2278
+ "loss": 0.0426,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 2.0838709677419356,
2283
+ "grad_norm": 0.1074904876869991,
2284
+ "learning_rate": 5.174561874026741e-05,
2285
+ "loss": 0.0453,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 2.0903225806451613,
2290
+ "grad_norm": 0.05559023402895479,
2291
+ "learning_rate": 5.108870250830882e-05,
2292
+ "loss": 0.0295,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 2.096774193548387,
2297
+ "grad_norm": 0.09545856608388173,
2298
+ "learning_rate": 5.0434549107355944e-05,
2299
+ "loss": 0.0441,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 2.1032258064516127,
2304
+ "grad_norm": 0.09664814857644259,
2305
+ "learning_rate": 4.978319548828504e-05,
2306
+ "loss": 0.0335,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 2.109677419354839,
2311
+ "grad_norm": 0.09467665510676392,
2312
+ "learning_rate": 4.9134678443822166e-05,
2313
+ "loss": 0.0251,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 2.1161290322580646,
2318
+ "grad_norm": 0.1384628187897895,
2319
+ "learning_rate": 4.8489034606465225e-05,
2320
+ "loss": 0.0369,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 2.1225806451612903,
2325
+ "grad_norm": 0.12578896351994917,
2326
+ "learning_rate": 4.784630044641435e-05,
2327
+ "loss": 0.0392,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 2.129032258064516,
2332
+ "grad_norm": 0.16521279278081405,
2333
+ "learning_rate": 4.7206512269512124e-05,
2334
+ "loss": 0.0463,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 2.135483870967742,
2339
+ "grad_norm": 0.11984973498381633,
2340
+ "learning_rate": 4.65697062151927e-05,
2341
+ "loss": 0.0394,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 2.141935483870968,
2346
+ "grad_norm": 0.09544223502654232,
2347
+ "learning_rate": 4.593591825444028e-05,
2348
+ "loss": 0.037,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 2.1483870967741936,
2353
+ "grad_norm": 0.13562773315198307,
2354
+ "learning_rate": 4.530518418775733e-05,
2355
+ "loss": 0.039,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 2.1548387096774193,
2360
+ "grad_norm": 0.08782158354204284,
2361
+ "learning_rate": 4.4677539643142454e-05,
2362
+ "loss": 0.0392,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 2.161290322580645,
2367
+ "grad_norm": 0.08174883141208888,
2368
+ "learning_rate": 4.40530200740777e-05,
2369
+ "loss": 0.0313,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 2.167741935483871,
2374
+ "grad_norm": 0.09796897925277187,
2375
+ "learning_rate": 4.343166075752605e-05,
2376
+ "loss": 0.0337,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 2.174193548387097,
2381
+ "grad_norm": 0.11851301692643428,
2382
+ "learning_rate": 4.281349679193861e-05,
2383
+ "loss": 0.039,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 2.1806451612903226,
2388
+ "grad_norm": 0.10807728159748675,
2389
+ "learning_rate": 4.2198563095272116e-05,
2390
+ "loss": 0.0301,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 2.1870967741935483,
2395
+ "grad_norm": 0.2141192740082474,
2396
+ "learning_rate": 4.158689440301657e-05,
2397
+ "loss": 0.0354,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 2.193548387096774,
2402
+ "grad_norm": 0.07257549552594048,
2403
+ "learning_rate": 4.097852526623307e-05,
2404
+ "loss": 0.0339,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 2.2,
2409
+ "grad_norm": 0.19631930583890622,
2410
+ "learning_rate": 4.0373490049602204e-05,
2411
+ "loss": 0.0497,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 2.206451612903226,
2416
+ "grad_norm": 0.08740964228587876,
2417
+ "learning_rate": 3.977182292948283e-05,
2418
+ "loss": 0.0478,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 2.2129032258064516,
2423
+ "grad_norm": 0.08272419362723894,
2424
+ "learning_rate": 3.9173557891981573e-05,
2425
+ "loss": 0.0379,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 2.2193548387096773,
2430
+ "grad_norm": 0.08040985475184476,
2431
+ "learning_rate": 3.857872873103322e-05,
2432
+ "loss": 0.0447,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 2.225806451612903,
2437
+ "grad_norm": 0.09245277473267594,
2438
+ "learning_rate": 3.7987369046491684e-05,
2439
+ "loss": 0.0391,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 2.232258064516129,
2444
+ "grad_norm": 0.12614672525793685,
2445
+ "learning_rate": 3.7399512242231995e-05,
2446
+ "loss": 0.0342,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 2.238709677419355,
2451
+ "grad_norm": 0.09266235955840761,
2452
+ "learning_rate": 3.6815191524263624e-05,
2453
+ "loss": 0.0354,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 2.2451612903225806,
2458
+ "grad_norm": 0.06080492053598232,
2459
+ "learning_rate": 3.623443989885462e-05,
2460
+ "loss": 0.0335,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 2.2516129032258063,
2465
+ "grad_norm": 0.07807865557506005,
2466
+ "learning_rate": 3.565729017066729e-05,
2467
+ "loss": 0.0347,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 2.258064516129032,
2472
+ "grad_norm": 0.08087459186315774,
2473
+ "learning_rate": 3.508377494090521e-05,
2474
+ "loss": 0.036,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 2.264516129032258,
2479
+ "grad_norm": 0.08899211474214212,
2480
+ "learning_rate": 3.45139266054715e-05,
2481
+ "loss": 0.0343,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 2.270967741935484,
2486
+ "grad_norm": 0.07056377080769806,
2487
+ "learning_rate": 3.394777735313919e-05,
2488
+ "loss": 0.033,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 2.2774193548387096,
2493
+ "grad_norm": 0.0786360395215486,
2494
+ "learning_rate": 3.338535916373266e-05,
2495
+ "loss": 0.0319,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 2.2838709677419353,
2500
+ "grad_norm": 0.0870351921736199,
2501
+ "learning_rate": 3.2826703806321525e-05,
2502
+ "loss": 0.0408,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 2.2903225806451615,
2507
+ "grad_norm": 0.07340127696415631,
2508
+ "learning_rate": 3.227184283742591e-05,
2509
+ "loss": 0.0348,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 2.296774193548387,
2514
+ "grad_norm": 0.08727491345423612,
2515
+ "learning_rate": 3.17208075992339e-05,
2516
+ "loss": 0.0349,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 2.303225806451613,
2521
+ "grad_norm": 0.08641599877739083,
2522
+ "learning_rate": 3.117362921783134e-05,
2523
+ "loss": 0.0435,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 2.3096774193548386,
2528
+ "grad_norm": 0.06573525447698249,
2529
+ "learning_rate": 3.063033860144339e-05,
2530
+ "loss": 0.0316,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 2.3161290322580643,
2535
+ "grad_norm": 0.07221179151878702,
2536
+ "learning_rate": 3.0090966438688772e-05,
2537
+ "loss": 0.0324,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 2.3225806451612905,
2542
+ "grad_norm": 0.18424602936724097,
2543
+ "learning_rate": 2.9555543196846292e-05,
2544
+ "loss": 0.0396,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 2.329032258064516,
2549
+ "grad_norm": 0.08124593683663159,
2550
+ "learning_rate": 2.9024099120133673e-05,
2551
+ "loss": 0.0365,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 2.335483870967742,
2556
+ "grad_norm": 0.10243519568473496,
2557
+ "learning_rate": 2.8496664227999415e-05,
2558
+ "loss": 0.0431,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 2.3419354838709676,
2563
+ "grad_norm": 0.08863145799938825,
2564
+ "learning_rate": 2.7973268313426837e-05,
2565
+ "loss": 0.0431,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 2.3483870967741938,
2570
+ "grad_norm": 0.1157770288973089,
2571
+ "learning_rate": 2.745394094125141e-05,
2572
+ "loss": 0.0384,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 2.3548387096774195,
2577
+ "grad_norm": 0.06937293824933606,
2578
+ "learning_rate": 2.6938711446490606e-05,
2579
+ "loss": 0.0326,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 2.361290322580645,
2584
+ "grad_norm": 0.11070613688051265,
2585
+ "learning_rate": 2.6427608932686843e-05,
2586
+ "loss": 0.0453,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 2.367741935483871,
2591
+ "grad_norm": 0.07304602035921624,
2592
+ "learning_rate": 2.5920662270263653e-05,
2593
+ "loss": 0.0349,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 2.3741935483870966,
2598
+ "grad_norm": 0.0957880185255825,
2599
+ "learning_rate": 2.5417900094894744e-05,
2600
+ "loss": 0.0384,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 2.3806451612903228,
2605
+ "grad_norm": 0.06844023851775795,
2606
+ "learning_rate": 2.4919350805886577e-05,
2607
+ "loss": 0.0312,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 2.3870967741935485,
2612
+ "grad_norm": 0.10510477036054879,
2613
+ "learning_rate": 2.4425042564574184e-05,
2614
+ "loss": 0.0337,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 2.393548387096774,
2619
+ "grad_norm": 0.0969617018143466,
2620
+ "learning_rate": 2.3935003292730296e-05,
2621
+ "loss": 0.035,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 2.4,
2626
+ "grad_norm": 0.07967820297616653,
2627
+ "learning_rate": 2.344926067098836e-05,
2628
+ "loss": 0.037,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 2.4064516129032256,
2633
+ "grad_norm": 0.07497176613411485,
2634
+ "learning_rate": 2.2967842137278706e-05,
2635
+ "loss": 0.0328,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 2.412903225806452,
2640
+ "grad_norm": 0.09754092780042643,
2641
+ "learning_rate": 2.2490774885278908e-05,
2642
+ "loss": 0.0313,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 2.4193548387096775,
2647
+ "grad_norm": 0.08185743462021658,
2648
+ "learning_rate": 2.201808586287757e-05,
2649
+ "loss": 0.031,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 2.425806451612903,
2654
+ "grad_norm": 0.08264089376813998,
2655
+ "learning_rate": 2.15498017706521e-05,
2656
+ "loss": 0.0385,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 2.432258064516129,
2661
+ "grad_norm": 0.0823740031947979,
2662
+ "learning_rate": 2.1085949060360654e-05,
2663
+ "loss": 0.039,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 2.4387096774193546,
2668
+ "grad_norm": 0.07247982019193418,
2669
+ "learning_rate": 2.0626553933447734e-05,
2670
+ "loss": 0.0264,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 2.445161290322581,
2675
+ "grad_norm": 0.08404435825498824,
2676
+ "learning_rate": 2.01716423395644e-05,
2677
+ "loss": 0.0479,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 2.4516129032258065,
2682
+ "grad_norm": 0.08666218883884351,
2683
+ "learning_rate": 1.9721239975102313e-05,
2684
+ "loss": 0.0377,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 2.458064516129032,
2689
+ "grad_norm": 0.0813934369010793,
2690
+ "learning_rate": 1.9275372281742242e-05,
2691
+ "loss": 0.0287,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 2.464516129032258,
2696
+ "grad_norm": 0.08490400932239225,
2697
+ "learning_rate": 1.8834064445016953e-05,
2698
+ "loss": 0.0287,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 2.4709677419354836,
2703
+ "grad_norm": 0.0745619544814596,
2704
+ "learning_rate": 1.839734139288868e-05,
2705
+ "loss": 0.0313,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 2.47741935483871,
2710
+ "grad_norm": 0.07603999026318416,
2711
+ "learning_rate": 1.7965227794340877e-05,
2712
+ "loss": 0.0282,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 2.4838709677419355,
2717
+ "grad_norm": 0.07482170653624513,
2718
+ "learning_rate": 1.753774805798486e-05,
2719
+ "loss": 0.0338,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 2.490322580645161,
2724
+ "grad_norm": 0.11239247582773948,
2725
+ "learning_rate": 1.7114926330680957e-05,
2726
+ "loss": 0.0332,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 2.496774193548387,
2731
+ "grad_norm": 0.08250289864329428,
2732
+ "learning_rate": 1.6696786496174578e-05,
2733
+ "loss": 0.0402,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 2.5032258064516126,
2738
+ "grad_norm": 0.10452752517237242,
2739
+ "learning_rate": 1.6283352173747145e-05,
2740
+ "loss": 0.0333,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 2.509677419354839,
2745
+ "grad_norm": 0.09847614894022073,
2746
+ "learning_rate": 1.587464671688187e-05,
2747
+ "loss": 0.0349,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 2.5161290322580645,
2752
+ "grad_norm": 0.08854153674623017,
2753
+ "learning_rate": 1.5470693211944643e-05,
2754
+ "loss": 0.0294,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 2.52258064516129,
2759
+ "grad_norm": 0.07568785710192437,
2760
+ "learning_rate": 1.5071514476879878e-05,
2761
+ "loss": 0.0304,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 2.5290322580645164,
2766
+ "grad_norm": 0.10747782045229992,
2767
+ "learning_rate": 1.4677133059921632e-05,
2768
+ "loss": 0.034,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 2.535483870967742,
2773
+ "grad_norm": 0.07944602809272536,
2774
+ "learning_rate": 1.4287571238320053e-05,
2775
+ "loss": 0.0362,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 2.541935483870968,
2780
+ "grad_norm": 0.09637365953273927,
2781
+ "learning_rate": 1.3902851017082864e-05,
2782
+ "loss": 0.0351,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 2.5483870967741935,
2787
+ "grad_norm": 0.07895627852796791,
2788
+ "learning_rate": 1.3522994127732414e-05,
2789
+ "loss": 0.0348,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 2.554838709677419,
2794
+ "grad_norm": 0.11668198814666138,
2795
+ "learning_rate": 1.3148022027078222e-05,
2796
+ "loss": 0.0377,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 2.5612903225806454,
2801
+ "grad_norm": 0.08859887668842747,
2802
+ "learning_rate": 1.2777955896004812e-05,
2803
+ "loss": 0.0339,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 2.567741935483871,
2808
+ "grad_norm": 0.0955648903311151,
2809
+ "learning_rate": 1.2412816638275404e-05,
2810
+ "loss": 0.0429,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 2.574193548387097,
2815
+ "grad_norm": 0.08953857592938266,
2816
+ "learning_rate": 1.2052624879351104e-05,
2817
+ "loss": 0.0354,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 2.5806451612903225,
2822
+ "grad_norm": 0.12572795234550732,
2823
+ "learning_rate": 1.1697400965225747e-05,
2824
+ "loss": 0.0403,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 2.587096774193548,
2829
+ "grad_norm": 0.10694439782055375,
2830
+ "learning_rate": 1.134716496127679e-05,
2831
+ "loss": 0.0336,
2832
+ "step": 401
2833
+ },
2834
+ {
2835
+ "epoch": 2.5935483870967744,
2836
+ "grad_norm": 0.06513844231274085,
2837
+ "learning_rate": 1.1001936651131717e-05,
2838
+ "loss": 0.0329,
2839
+ "step": 402
2840
+ },
2841
+ {
2842
+ "epoch": 2.6,
2843
+ "grad_norm": 0.09974875770813588,
2844
+ "learning_rate": 1.0661735535550666e-05,
2845
+ "loss": 0.0365,
2846
+ "step": 403
2847
+ },
2848
+ {
2849
+ "epoch": 2.606451612903226,
2850
+ "grad_norm": 0.06817268977991534,
2851
+ "learning_rate": 1.0326580831324817e-05,
2852
+ "loss": 0.0299,
2853
+ "step": 404
2854
+ },
2855
+ {
2856
+ "epoch": 2.6129032258064515,
2857
+ "grad_norm": 0.06220845407702803,
2858
+ "learning_rate": 9.996491470190917e-06,
2859
+ "loss": 0.027,
2860
+ "step": 405
2861
+ },
2862
+ {
2863
+ "epoch": 2.6193548387096772,
2864
+ "grad_norm": 0.08453636414206647,
2865
+ "learning_rate": 9.671486097761917e-06,
2866
+ "loss": 0.0418,
2867
+ "step": 406
2868
+ },
2869
+ {
2870
+ "epoch": 2.6258064516129034,
2871
+ "grad_norm": 0.10895972341564872,
2872
+ "learning_rate": 9.351583072473713e-06,
2873
+ "loss": 0.0411,
2874
+ "step": 407
2875
+ },
2876
+ {
2877
+ "epoch": 2.632258064516129,
2878
+ "grad_norm": 0.08350751437942873,
2879
+ "learning_rate": 9.036800464548157e-06,
2880
+ "loss": 0.0434,
2881
+ "step": 408
2882
+ },
2883
+ {
2884
+ "epoch": 2.638709677419355,
2885
+ "grad_norm": 0.10366684902670063,
2886
+ "learning_rate": 8.727156054972374e-06,
2887
+ "loss": 0.039,
2888
+ "step": 409
2889
+ },
2890
+ {
2891
+ "epoch": 2.6451612903225805,
2892
+ "grad_norm": 0.09956778774869587,
2893
+ "learning_rate": 8.422667334494249e-06,
2894
+ "loss": 0.0408,
2895
+ "step": 410
2896
+ },
2897
+ {
2898
+ "epoch": 2.6516129032258062,
2899
+ "grad_norm": 0.08758251356693646,
2900
+ "learning_rate": 8.123351502634625e-06,
2901
+ "loss": 0.0348,
2902
+ "step": 411
2903
+ },
2904
+ {
2905
+ "epoch": 2.6580645161290324,
2906
+ "grad_norm": 0.10844348207137618,
2907
+ "learning_rate": 7.82922546671555e-06,
2908
+ "loss": 0.0408,
2909
+ "step": 412
2910
+ },
2911
+ {
2912
+ "epoch": 2.664516129032258,
2913
+ "grad_norm": 0.10636911692675921,
2914
+ "learning_rate": 7.54030584090537e-06,
2915
+ "loss": 0.0429,
2916
+ "step": 413
2917
+ },
2918
+ {
2919
+ "epoch": 2.670967741935484,
2920
+ "grad_norm": 0.09542792766451057,
2921
+ "learning_rate": 7.256608945280319e-06,
2922
+ "loss": 0.0447,
2923
+ "step": 414
2924
+ },
2925
+ {
2926
+ "epoch": 2.6774193548387095,
2927
+ "grad_norm": 0.07697171392030314,
2928
+ "learning_rate": 6.97815080490245e-06,
2929
+ "loss": 0.0367,
2930
+ "step": 415
2931
+ },
2932
+ {
2933
+ "epoch": 2.6838709677419352,
2934
+ "grad_norm": 0.072266260251159,
2935
+ "learning_rate": 6.704947148914609e-06,
2936
+ "loss": 0.0325,
2937
+ "step": 416
2938
+ },
2939
+ {
2940
+ "epoch": 2.6903225806451614,
2941
+ "grad_norm": 0.0945534978466976,
2942
+ "learning_rate": 6.437013409651849e-06,
2943
+ "loss": 0.0296,
2944
+ "step": 417
2945
+ },
2946
+ {
2947
+ "epoch": 2.696774193548387,
2948
+ "grad_norm": 0.10612283288506409,
2949
+ "learning_rate": 6.174364721769743e-06,
2950
+ "loss": 0.0492,
2951
+ "step": 418
2952
+ },
2953
+ {
2954
+ "epoch": 2.703225806451613,
2955
+ "grad_norm": 0.08110795988519982,
2956
+ "learning_rate": 5.917015921389568e-06,
2957
+ "loss": 0.0313,
2958
+ "step": 419
2959
+ },
2960
+ {
2961
+ "epoch": 2.709677419354839,
2962
+ "grad_norm": 0.0662490047037332,
2963
+ "learning_rate": 5.664981545260073e-06,
2964
+ "loss": 0.028,
2965
+ "step": 420
2966
+ },
2967
+ {
2968
+ "epoch": 2.7161290322580647,
2969
+ "grad_norm": 0.11866120174733467,
2970
+ "learning_rate": 5.418275829936537e-06,
2971
+ "loss": 0.0335,
2972
+ "step": 421
2973
+ },
2974
+ {
2975
+ "epoch": 2.7225806451612904,
2976
+ "grad_norm": 0.09690307384076605,
2977
+ "learning_rate": 5.176912710976467e-06,
2978
+ "loss": 0.0328,
2979
+ "step": 422
2980
+ },
2981
+ {
2982
+ "epoch": 2.729032258064516,
2983
+ "grad_norm": 0.08332254956064335,
2984
+ "learning_rate": 4.940905822152453e-06,
2985
+ "loss": 0.0376,
2986
+ "step": 423
2987
+ },
2988
+ {
2989
+ "epoch": 2.735483870967742,
2990
+ "grad_norm": 0.10534480078797799,
2991
+ "learning_rate": 4.710268494682146e-06,
2992
+ "loss": 0.0427,
2993
+ "step": 424
2994
+ },
2995
+ {
2996
+ "epoch": 2.741935483870968,
2997
+ "grad_norm": 0.07751933249718136,
2998
+ "learning_rate": 4.485013756475076e-06,
2999
+ "loss": 0.0351,
3000
+ "step": 425
3001
+ },
3002
+ {
3003
+ "epoch": 2.7483870967741937,
3004
+ "grad_norm": 0.08421370184302716,
3005
+ "learning_rate": 4.2651543313968145e-06,
3006
+ "loss": 0.0349,
3007
+ "step": 426
3008
+ },
3009
+ {
3010
+ "epoch": 2.7548387096774194,
3011
+ "grad_norm": 0.09663498717781645,
3012
+ "learning_rate": 4.050702638550275e-06,
3013
+ "loss": 0.0375,
3014
+ "step": 427
3015
+ },
3016
+ {
3017
+ "epoch": 2.761290322580645,
3018
+ "grad_norm": 0.10109504165697188,
3019
+ "learning_rate": 3.841670791574137e-06,
3020
+ "loss": 0.0389,
3021
+ "step": 428
3022
+ },
3023
+ {
3024
+ "epoch": 2.767741935483871,
3025
+ "grad_norm": 0.07242313321239978,
3026
+ "learning_rate": 3.638070597958665e-06,
3027
+ "loss": 0.032,
3028
+ "step": 429
3029
+ },
3030
+ {
3031
+ "epoch": 2.774193548387097,
3032
+ "grad_norm": 0.07339732439560019,
3033
+ "learning_rate": 3.4399135583787043e-06,
3034
+ "loss": 0.0354,
3035
+ "step": 430
3036
+ },
3037
+ {
3038
+ "epoch": 2.7806451612903227,
3039
+ "grad_norm": 0.10075765784942739,
3040
+ "learning_rate": 3.2472108660439706e-06,
3041
+ "loss": 0.0492,
3042
+ "step": 431
3043
+ },
3044
+ {
3045
+ "epoch": 2.7870967741935484,
3046
+ "grad_norm": 0.07589971575113699,
3047
+ "learning_rate": 3.059973406066963e-06,
3048
+ "loss": 0.031,
3049
+ "step": 432
3050
+ },
3051
+ {
3052
+ "epoch": 2.793548387096774,
3053
+ "grad_norm": 0.08019217757997281,
3054
+ "learning_rate": 2.878211754847926e-06,
3055
+ "loss": 0.0421,
3056
+ "step": 433
3057
+ },
3058
+ {
3059
+ "epoch": 2.8,
3060
+ "grad_norm": 0.12861410711276888,
3061
+ "learning_rate": 2.7019361794775156e-06,
3062
+ "loss": 0.0365,
3063
+ "step": 434
3064
+ },
3065
+ {
3066
+ "epoch": 2.806451612903226,
3067
+ "grad_norm": 0.09493420573436114,
3068
+ "learning_rate": 2.5311566371568507e-06,
3069
+ "loss": 0.0326,
3070
+ "step": 435
3071
+ },
3072
+ {
3073
+ "epoch": 2.8129032258064517,
3074
+ "grad_norm": 0.07274924242928238,
3075
+ "learning_rate": 2.365882774634998e-06,
3076
+ "loss": 0.0398,
3077
+ "step": 436
3078
+ },
3079
+ {
3080
+ "epoch": 2.8193548387096774,
3081
+ "grad_norm": 0.08169132644155476,
3082
+ "learning_rate": 2.206123927664161e-06,
3083
+ "loss": 0.0379,
3084
+ "step": 437
3085
+ },
3086
+ {
3087
+ "epoch": 2.825806451612903,
3088
+ "grad_norm": 0.07933207328170928,
3089
+ "learning_rate": 2.0518891204722168e-06,
3090
+ "loss": 0.0255,
3091
+ "step": 438
3092
+ },
3093
+ {
3094
+ "epoch": 2.832258064516129,
3095
+ "grad_norm": 0.09957580250269343,
3096
+ "learning_rate": 1.903187065253076e-06,
3097
+ "loss": 0.0445,
3098
+ "step": 439
3099
+ },
3100
+ {
3101
+ "epoch": 2.838709677419355,
3102
+ "grad_norm": 0.08137735740771984,
3103
+ "learning_rate": 1.7600261616745106e-06,
3104
+ "loss": 0.0422,
3105
+ "step": 440
3106
+ },
3107
+ {
3108
+ "epoch": 2.8451612903225807,
3109
+ "grad_norm": 0.10587692098340466,
3110
+ "learning_rate": 1.6224144964036681e-06,
3111
+ "loss": 0.0364,
3112
+ "step": 441
3113
+ },
3114
+ {
3115
+ "epoch": 2.8516129032258064,
3116
+ "grad_norm": 0.10343920804144822,
3117
+ "learning_rate": 1.4903598426503241e-06,
3118
+ "loss": 0.0327,
3119
+ "step": 442
3120
+ },
3121
+ {
3122
+ "epoch": 2.858064516129032,
3123
+ "grad_norm": 0.07946725527009221,
3124
+ "learning_rate": 1.3638696597277679e-06,
3125
+ "loss": 0.0341,
3126
+ "step": 443
3127
+ },
3128
+ {
3129
+ "epoch": 2.864516129032258,
3130
+ "grad_norm": 0.09586325289816539,
3131
+ "learning_rate": 1.2429510926314836e-06,
3132
+ "loss": 0.0267,
3133
+ "step": 444
3134
+ },
3135
+ {
3136
+ "epoch": 2.870967741935484,
3137
+ "grad_norm": 0.0827004341912287,
3138
+ "learning_rate": 1.1276109716355287e-06,
3139
+ "loss": 0.0416,
3140
+ "step": 445
3141
+ },
3142
+ {
3143
+ "epoch": 2.8774193548387097,
3144
+ "grad_norm": 0.07005026862609978,
3145
+ "learning_rate": 1.0178558119067315e-06,
3146
+ "loss": 0.0344,
3147
+ "step": 446
3148
+ },
3149
+ {
3150
+ "epoch": 2.8838709677419354,
3151
+ "grad_norm": 0.09331217539366578,
3152
+ "learning_rate": 9.136918131366412e-07,
3153
+ "loss": 0.0353,
3154
+ "step": 447
3155
+ },
3156
+ {
3157
+ "epoch": 2.8903225806451616,
3158
+ "grad_norm": 0.08846943376776958,
3159
+ "learning_rate": 8.151248591913518e-07,
3160
+ "loss": 0.0386,
3161
+ "step": 448
3162
+ },
3163
+ {
3164
+ "epoch": 2.896774193548387,
3165
+ "grad_norm": 0.1051100476797595,
3166
+ "learning_rate": 7.221605177791691e-07,
3167
+ "loss": 0.0411,
3168
+ "step": 449
3169
+ },
3170
+ {
3171
+ "epoch": 2.903225806451613,
3172
+ "grad_norm": 0.10646364294182206,
3173
+ "learning_rate": 6.348040401360833e-07,
3174
+ "loss": 0.0346,
3175
+ "step": 450
3176
+ },
3177
+ {
3178
+ "epoch": 2.9096774193548387,
3179
+ "grad_norm": 0.14514647433288821,
3180
+ "learning_rate": 5.530603607290851e-07,
3181
+ "loss": 0.0432,
3182
+ "step": 451
3183
+ },
3184
+ {
3185
+ "epoch": 2.9161290322580644,
3186
+ "grad_norm": 0.08548221741715605,
3187
+ "learning_rate": 4.76934096977566e-07,
3188
+ "loss": 0.0318,
3189
+ "step": 452
3190
+ },
3191
+ {
3192
+ "epoch": 2.9225806451612906,
3193
+ "grad_norm": 0.07886089519019772,
3194
+ "learning_rate": 4.0642954899238197e-07,
3195
+ "loss": 0.0387,
3196
+ "step": 453
3197
+ },
3198
+ {
3199
+ "epoch": 2.9290322580645163,
3200
+ "grad_norm": 0.10187728036061035,
3201
+ "learning_rate": 3.415506993330153e-07,
3202
+ "loss": 0.0385,
3203
+ "step": 454
3204
+ },
3205
+ {
3206
+ "epoch": 2.935483870967742,
3207
+ "grad_norm": 0.06877182838764333,
3208
+ "learning_rate": 2.8230121278257637e-07,
3209
+ "loss": 0.0268,
3210
+ "step": 455
3211
+ },
3212
+ {
3213
+ "epoch": 2.9419354838709677,
3214
+ "grad_norm": 0.07135072782410999,
3215
+ "learning_rate": 2.2868443614082469e-07,
3216
+ "loss": 0.0348,
3217
+ "step": 456
3218
+ },
3219
+ {
3220
+ "epoch": 2.9483870967741934,
3221
+ "grad_norm": 0.0784846474201083,
3222
+ "learning_rate": 1.8070339803509807e-07,
3223
+ "loss": 0.0401,
3224
+ "step": 457
3225
+ },
3226
+ {
3227
+ "epoch": 2.9548387096774196,
3228
+ "grad_norm": 0.07055206711925587,
3229
+ "learning_rate": 1.3836080874926049e-07,
3230
+ "loss": 0.0341,
3231
+ "step": 458
3232
+ },
3233
+ {
3234
+ "epoch": 2.9612903225806453,
3235
+ "grad_norm": 0.12997432093488728,
3236
+ "learning_rate": 1.0165906007056914e-07,
3237
+ "loss": 0.0397,
3238
+ "step": 459
3239
+ },
3240
+ {
3241
+ "epoch": 2.967741935483871,
3242
+ "grad_norm": 0.07787008340791496,
3243
+ "learning_rate": 7.060022515460451e-08,
3244
+ "loss": 0.0327,
3245
+ "step": 460
3246
+ },
3247
+ {
3248
+ "epoch": 2.9741935483870967,
3249
+ "grad_norm": 0.08207645810528069,
3250
+ "learning_rate": 4.518605840815315e-08,
3251
+ "loss": 0.0433,
3252
+ "step": 461
3253
+ },
3254
+ {
3255
+ "epoch": 2.9806451612903224,
3256
+ "grad_norm": 0.0969168591567496,
3257
+ "learning_rate": 2.5417995390086824e-08,
3258
+ "loss": 0.0358,
3259
+ "step": 462
3260
+ },
3261
+ {
3262
+ "epoch": 2.9870967741935486,
3263
+ "grad_norm": 0.08709768527509966,
3264
+ "learning_rate": 1.129715273033849e-08,
3265
+ "loss": 0.0363,
3266
+ "step": 463
3267
+ },
3268
+ {
3269
+ "epoch": 2.9935483870967743,
3270
+ "grad_norm": 0.09987493142651711,
3271
+ "learning_rate": 2.824328066730608e-09,
3272
+ "loss": 0.0362,
3273
+ "step": 464
3274
+ },
3275
+ {
3276
+ "epoch": 3.0,
3277
+ "grad_norm": 0.06314894199443474,
3278
+ "learning_rate": 0.0,
3279
+ "loss": 0.0271,
3280
+ "step": 465
3281
+ },
3282
+ {
3283
+ "epoch": 3.0,
3284
+ "eval_loss": 0.11768443137407303,
3285
+ "eval_runtime": 25.378,
3286
+ "eval_samples_per_second": 5.162,
3287
+ "eval_steps_per_second": 0.67,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 3.0,
3292
+ "step": 465,
3293
+ "total_flos": 261374226563072.0,
3294
+ "train_loss": 0.07172503977693537,
3295
+ "train_runtime": 3552.9052,
3296
+ "train_samples_per_second": 2.091,
3297
+ "train_steps_per_second": 0.131
3298
+ }
3299
+ ],
3300
+ "logging_steps": 1,
3301
+ "max_steps": 465,
3302
+ "num_input_tokens_seen": 0,
3303
+ "num_train_epochs": 3,
3304
+ "save_steps": 500,
3305
+ "stateful_callbacks": {
3306
+ "TrainerControl": {
3307
+ "args": {
3308
+ "should_epoch_stop": false,
3309
+ "should_evaluate": false,
3310
+ "should_log": false,
3311
+ "should_save": true,
3312
+ "should_training_stop": true
3313
+ },
3314
+ "attributes": {}
3315
+ }
3316
+ },
3317
+ "total_flos": 261374226563072.0,
3318
+ "train_batch_size": 2,
3319
+ "trial_name": null,
3320
+ "trial_params": null
3321
+ }