Mazen Amria commited on
Commit
1a113a4
1 Parent(s): 4960ee8

Model save

Browse files
all_results.json CHANGED
@@ -1,8 +1,13 @@
1
  {
2
- "epoch": 5.0,
3
- "total_flos": 6.230614598311477e+18,
4
- "train_loss": 0.0,
5
- "train_runtime": 0.1997,
6
- "train_samples_per_second": 1252007.126,
7
- "train_steps_per_second": 19556.351
 
 
 
 
 
8
  }
 
1
  {
2
+ "epoch": 8.0,
3
+ "eval_accuracy": 0.8735,
4
+ "eval_loss": 0.42226287722587585,
5
+ "eval_runtime": 61.173,
6
+ "eval_samples_per_second": 163.471,
7
+ "eval_steps_per_second": 10.217,
8
+ "total_flos": 9.976400755629687e+18,
9
+ "train_loss": 0.05874636431585964,
10
+ "train_runtime": 2017.8469,
11
+ "train_samples_per_second": 495.578,
12
+ "train_steps_per_second": 7.741
13
  }
config.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
- "_name_or_path": "microsoft/swin-tiny-patch4-window7-224",
3
  "architectures": [
4
- "SwinForImageClassification"
5
  ],
6
  "attention_probs_dropout_prob": 0.0,
7
  "depths": [
@@ -19,6 +19,14 @@
19
  "id2label": {
20
  "0": "apple",
21
  "1": "aquarium_fish",
 
 
 
 
 
 
 
 
22
  "10": "bowl",
23
  "11": "boy",
24
  "12": "bridge",
@@ -29,7 +37,6 @@
29
  "17": "castle",
30
  "18": "caterpillar",
31
  "19": "cattle",
32
- "2": "baby",
33
  "20": "chair",
34
  "21": "chimpanzee",
35
  "22": "clock",
@@ -40,7 +47,6 @@
40
  "27": "crocodile",
41
  "28": "cup",
42
  "29": "dinosaur",
43
- "3": "bear",
44
  "30": "dolphin",
45
  "31": "elephant",
46
  "32": "flatfish",
@@ -51,7 +57,6 @@
51
  "37": "house",
52
  "38": "kangaroo",
53
  "39": "keyboard",
54
- "4": "beaver",
55
  "40": "lamp",
56
  "41": "lawn_mower",
57
  "42": "leopard",
@@ -62,7 +67,6 @@
62
  "47": "maple_tree",
63
  "48": "motorcycle",
64
  "49": "mountain",
65
- "5": "bed",
66
  "50": "mouse",
67
  "51": "mushroom",
68
  "52": "oak_tree",
@@ -73,7 +77,6 @@
73
  "57": "pear",
74
  "58": "pickup_truck",
75
  "59": "pine_tree",
76
- "6": "bee",
77
  "60": "plain",
78
  "61": "plate",
79
  "62": "poppy",
@@ -84,7 +87,6 @@
84
  "67": "ray",
85
  "68": "road",
86
  "69": "rocket",
87
- "7": "beetle",
88
  "70": "rose",
89
  "71": "sea",
90
  "72": "seal",
@@ -95,7 +97,6 @@
95
  "77": "snail",
96
  "78": "snake",
97
  "79": "spider",
98
- "8": "bicycle",
99
  "80": "squirrel",
100
  "81": "streetcar",
101
  "82": "sunflower",
@@ -106,7 +107,6 @@
106
  "87": "television",
107
  "88": "tiger",
108
  "89": "tractor",
109
- "9": "bottle",
110
  "90": "train",
111
  "91": "trout",
112
  "92": "tulip",
 
1
  {
2
+ "_name_or_path": "/kaggle/working/swin-tiny-finetuned-cifar100/checkpoint-3905",
3
  "architectures": [
4
+ "SwinModel"
5
  ],
6
  "attention_probs_dropout_prob": 0.0,
7
  "depths": [
 
19
  "id2label": {
20
  "0": "apple",
21
  "1": "aquarium_fish",
22
+ "2": "baby",
23
+ "3": "bear",
24
+ "4": "beaver",
25
+ "5": "bed",
26
+ "6": "bee",
27
+ "7": "beetle",
28
+ "8": "bicycle",
29
+ "9": "bottle",
30
  "10": "bowl",
31
  "11": "boy",
32
  "12": "bridge",
 
37
  "17": "castle",
38
  "18": "caterpillar",
39
  "19": "cattle",
 
40
  "20": "chair",
41
  "21": "chimpanzee",
42
  "22": "clock",
 
47
  "27": "crocodile",
48
  "28": "cup",
49
  "29": "dinosaur",
 
50
  "30": "dolphin",
51
  "31": "elephant",
52
  "32": "flatfish",
 
57
  "37": "house",
58
  "38": "kangaroo",
59
  "39": "keyboard",
 
60
  "40": "lamp",
61
  "41": "lawn_mower",
62
  "42": "leopard",
 
67
  "47": "maple_tree",
68
  "48": "motorcycle",
69
  "49": "mountain",
 
70
  "50": "mouse",
71
  "51": "mushroom",
72
  "52": "oak_tree",
 
77
  "57": "pear",
78
  "58": "pickup_truck",
79
  "59": "pine_tree",
 
80
  "60": "plain",
81
  "61": "plate",
82
  "62": "poppy",
 
87
  "67": "ray",
88
  "68": "road",
89
  "69": "rocket",
 
90
  "70": "rose",
91
  "71": "sea",
92
  "72": "seal",
 
97
  "77": "snail",
98
  "78": "snake",
99
  "79": "spider",
 
100
  "80": "squirrel",
101
  "81": "streetcar",
102
  "82": "sunflower",
 
107
  "87": "television",
108
  "88": "tiger",
109
  "89": "tractor",
 
110
  "90": "train",
111
  "91": "trout",
112
  "92": "tulip",
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 8.0,
3
+ "eval_accuracy": 0.8735,
4
+ "eval_loss": 0.42226287722587585,
5
+ "eval_runtime": 61.173,
6
+ "eval_samples_per_second": 163.471,
7
+ "eval_steps_per_second": 10.217
8
+ }
pytorch_model.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:baa87f4c1ffe36c11a1fa3f67e3e6bceb22f0891fe2b34a83d3b03bf4a9de91e
3
- size 110694319
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1cd68ce90d0ac44e1dcc3ffc94a3ea936d53d1d140d491ba7c308a255951e938
3
+ size 110384947
runs/Dec23_19-28-07_9f2aa0a785d5/events.out.tfevents.1671827711.9f2aa0a785d5.23.9 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1765181576f43b57309a5c5bb9cfb8e4f6bd9235317484a2968084480d8c509d
3
+ size 686
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 5.0,
3
- "total_flos": 6.230614598311477e+18,
4
- "train_loss": 0.0,
5
- "train_runtime": 0.1997,
6
- "train_samples_per_second": 1252007.126,
7
- "train_steps_per_second": 19556.351
8
  }
 
1
  {
2
+ "epoch": 8.0,
3
+ "total_flos": 9.976400755629687e+18,
4
+ "train_loss": 0.05874636431585964,
5
+ "train_runtime": 2017.8469,
6
+ "train_samples_per_second": 495.578,
7
+ "train_steps_per_second": 7.741
8
  }
trainer_state.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
  "best_metric": 0.8735,
3
  "best_model_checkpoint": "swin-tiny-finetuned-cifar100/checkpoint-3905",
4
- "epoch": 4.99968,
5
- "global_step": 3905,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
@@ -4739,18 +4739,2853 @@
4739
  "step": 3905
4740
  },
4741
  {
4742
- "epoch": 5.0,
4743
- "step": 3905,
4744
- "total_flos": 6.230614598311477e+18,
4745
- "train_loss": 0.0,
4746
- "train_runtime": 0.1997,
4747
- "train_samples_per_second": 1252007.126,
4748
- "train_steps_per_second": 19556.351
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4749
  }
4750
  ],
4751
- "max_steps": 3905,
4752
- "num_train_epochs": 5,
4753
- "total_flos": 6.230614598311477e+18,
4754
  "trial_name": null,
4755
  "trial_params": null
4756
  }
 
1
  {
2
  "best_metric": 0.8735,
3
  "best_model_checkpoint": "swin-tiny-finetuned-cifar100/checkpoint-3905",
4
+ "epoch": 7.99968,
5
+ "global_step": 6248,
6
  "is_hyper_param_search": false,
7
  "is_local_process_zero": true,
8
  "is_world_process_zero": true,
 
4739
  "step": 3905
4740
  },
4741
  {
4742
+ "epoch": 5.01,
4743
+ "learning_rate": 3.331910655854318e-05,
4744
+ "loss": 0.1285,
4745
+ "step": 3910
4746
+ },
4747
+ {
4748
+ "epoch": 5.01,
4749
+ "learning_rate": 3.330487978375302e-05,
4750
+ "loss": 0.1142,
4751
+ "step": 3915
4752
+ },
4753
+ {
4754
+ "epoch": 5.02,
4755
+ "learning_rate": 3.329065300896287e-05,
4756
+ "loss": 0.1851,
4757
+ "step": 3920
4758
+ },
4759
+ {
4760
+ "epoch": 5.03,
4761
+ "learning_rate": 3.327642623417272e-05,
4762
+ "loss": 0.1502,
4763
+ "step": 3925
4764
+ },
4765
+ {
4766
+ "epoch": 5.03,
4767
+ "learning_rate": 3.326219945938256e-05,
4768
+ "loss": 0.1461,
4769
+ "step": 3930
4770
+ },
4771
+ {
4772
+ "epoch": 5.04,
4773
+ "learning_rate": 3.3247972684592405e-05,
4774
+ "loss": 0.1968,
4775
+ "step": 3935
4776
+ },
4777
+ {
4778
+ "epoch": 5.04,
4779
+ "learning_rate": 3.3233745909802246e-05,
4780
+ "loss": 0.1589,
4781
+ "step": 3940
4782
+ },
4783
+ {
4784
+ "epoch": 5.05,
4785
+ "learning_rate": 3.321951913501209e-05,
4786
+ "loss": 0.1806,
4787
+ "step": 3945
4788
+ },
4789
+ {
4790
+ "epoch": 5.06,
4791
+ "learning_rate": 3.320529236022194e-05,
4792
+ "loss": 0.1707,
4793
+ "step": 3950
4794
+ },
4795
+ {
4796
+ "epoch": 5.06,
4797
+ "learning_rate": 3.319106558543178e-05,
4798
+ "loss": 0.1472,
4799
+ "step": 3955
4800
+ },
4801
+ {
4802
+ "epoch": 5.07,
4803
+ "learning_rate": 3.317683881064163e-05,
4804
+ "loss": 0.1815,
4805
+ "step": 3960
4806
+ },
4807
+ {
4808
+ "epoch": 5.08,
4809
+ "learning_rate": 3.3162612035851475e-05,
4810
+ "loss": 0.2247,
4811
+ "step": 3965
4812
+ },
4813
+ {
4814
+ "epoch": 5.08,
4815
+ "learning_rate": 3.314838526106132e-05,
4816
+ "loss": 0.1818,
4817
+ "step": 3970
4818
+ },
4819
+ {
4820
+ "epoch": 5.09,
4821
+ "learning_rate": 3.313415848627116e-05,
4822
+ "loss": 0.13,
4823
+ "step": 3975
4824
+ },
4825
+ {
4826
+ "epoch": 5.1,
4827
+ "learning_rate": 3.311993171148101e-05,
4828
+ "loss": 0.2268,
4829
+ "step": 3980
4830
+ },
4831
+ {
4832
+ "epoch": 5.1,
4833
+ "learning_rate": 3.310570493669086e-05,
4834
+ "loss": 0.1953,
4835
+ "step": 3985
4836
+ },
4837
+ {
4838
+ "epoch": 5.11,
4839
+ "learning_rate": 3.30914781619007e-05,
4840
+ "loss": 0.1226,
4841
+ "step": 3990
4842
+ },
4843
+ {
4844
+ "epoch": 5.12,
4845
+ "learning_rate": 3.3077251387110545e-05,
4846
+ "loss": 0.1584,
4847
+ "step": 3995
4848
+ },
4849
+ {
4850
+ "epoch": 5.12,
4851
+ "learning_rate": 3.306302461232039e-05,
4852
+ "loss": 0.1786,
4853
+ "step": 4000
4854
+ },
4855
+ {
4856
+ "epoch": 5.13,
4857
+ "learning_rate": 3.304879783753023e-05,
4858
+ "loss": 0.1962,
4859
+ "step": 4005
4860
+ },
4861
+ {
4862
+ "epoch": 5.13,
4863
+ "learning_rate": 3.303457106274008e-05,
4864
+ "loss": 0.1649,
4865
+ "step": 4010
4866
+ },
4867
+ {
4868
+ "epoch": 5.14,
4869
+ "learning_rate": 3.302034428794993e-05,
4870
+ "loss": 0.2497,
4871
+ "step": 4015
4872
+ },
4873
+ {
4874
+ "epoch": 5.15,
4875
+ "learning_rate": 3.300611751315977e-05,
4876
+ "loss": 0.1831,
4877
+ "step": 4020
4878
+ },
4879
+ {
4880
+ "epoch": 5.15,
4881
+ "learning_rate": 3.2991890738369616e-05,
4882
+ "loss": 0.1659,
4883
+ "step": 4025
4884
+ },
4885
+ {
4886
+ "epoch": 5.16,
4887
+ "learning_rate": 3.297766396357946e-05,
4888
+ "loss": 0.1938,
4889
+ "step": 4030
4890
+ },
4891
+ {
4892
+ "epoch": 5.17,
4893
+ "learning_rate": 3.2963437188789303e-05,
4894
+ "loss": 0.2537,
4895
+ "step": 4035
4896
+ },
4897
+ {
4898
+ "epoch": 5.17,
4899
+ "learning_rate": 3.294921041399915e-05,
4900
+ "loss": 0.2067,
4901
+ "step": 4040
4902
+ },
4903
+ {
4904
+ "epoch": 5.18,
4905
+ "learning_rate": 3.2934983639209e-05,
4906
+ "loss": 0.2082,
4907
+ "step": 4045
4908
+ },
4909
+ {
4910
+ "epoch": 5.19,
4911
+ "learning_rate": 3.292075686441884e-05,
4912
+ "loss": 0.2009,
4913
+ "step": 4050
4914
+ },
4915
+ {
4916
+ "epoch": 5.19,
4917
+ "learning_rate": 3.2906530089628686e-05,
4918
+ "loss": 0.2421,
4919
+ "step": 4055
4920
+ },
4921
+ {
4922
+ "epoch": 5.2,
4923
+ "learning_rate": 3.2892303314838526e-05,
4924
+ "loss": 0.1824,
4925
+ "step": 4060
4926
+ },
4927
+ {
4928
+ "epoch": 5.2,
4929
+ "learning_rate": 3.2878076540048374e-05,
4930
+ "loss": 0.1365,
4931
+ "step": 4065
4932
+ },
4933
+ {
4934
+ "epoch": 5.21,
4935
+ "learning_rate": 3.286384976525822e-05,
4936
+ "loss": 0.1509,
4937
+ "step": 4070
4938
+ },
4939
+ {
4940
+ "epoch": 5.22,
4941
+ "learning_rate": 3.284962299046806e-05,
4942
+ "loss": 0.2064,
4943
+ "step": 4075
4944
+ },
4945
+ {
4946
+ "epoch": 5.22,
4947
+ "learning_rate": 3.283539621567791e-05,
4948
+ "loss": 0.1502,
4949
+ "step": 4080
4950
+ },
4951
+ {
4952
+ "epoch": 5.23,
4953
+ "learning_rate": 3.282116944088775e-05,
4954
+ "loss": 0.1109,
4955
+ "step": 4085
4956
+ },
4957
+ {
4958
+ "epoch": 5.24,
4959
+ "learning_rate": 3.2806942666097596e-05,
4960
+ "loss": 0.1713,
4961
+ "step": 4090
4962
+ },
4963
+ {
4964
+ "epoch": 5.24,
4965
+ "learning_rate": 3.2792715891307444e-05,
4966
+ "loss": 0.1816,
4967
+ "step": 4095
4968
+ },
4969
+ {
4970
+ "epoch": 5.25,
4971
+ "learning_rate": 3.2778489116517284e-05,
4972
+ "loss": 0.1827,
4973
+ "step": 4100
4974
+ },
4975
+ {
4976
+ "epoch": 5.26,
4977
+ "learning_rate": 3.276426234172713e-05,
4978
+ "loss": 0.3017,
4979
+ "step": 4105
4980
+ },
4981
+ {
4982
+ "epoch": 5.26,
4983
+ "learning_rate": 3.275003556693698e-05,
4984
+ "loss": 0.1865,
4985
+ "step": 4110
4986
+ },
4987
+ {
4988
+ "epoch": 5.27,
4989
+ "learning_rate": 3.273580879214682e-05,
4990
+ "loss": 0.21,
4991
+ "step": 4115
4992
+ },
4993
+ {
4994
+ "epoch": 5.28,
4995
+ "learning_rate": 3.272158201735667e-05,
4996
+ "loss": 0.1569,
4997
+ "step": 4120
4998
+ },
4999
+ {
5000
+ "epoch": 5.28,
5001
+ "learning_rate": 3.2707355242566514e-05,
5002
+ "loss": 0.2136,
5003
+ "step": 4125
5004
+ },
5005
+ {
5006
+ "epoch": 5.29,
5007
+ "learning_rate": 3.2693128467776354e-05,
5008
+ "loss": 0.2465,
5009
+ "step": 4130
5010
+ },
5011
+ {
5012
+ "epoch": 5.29,
5013
+ "learning_rate": 3.26789016929862e-05,
5014
+ "loss": 0.2049,
5015
+ "step": 4135
5016
+ },
5017
+ {
5018
+ "epoch": 5.3,
5019
+ "learning_rate": 3.266467491819605e-05,
5020
+ "loss": 0.2559,
5021
+ "step": 4140
5022
+ },
5023
+ {
5024
+ "epoch": 5.31,
5025
+ "learning_rate": 3.265044814340589e-05,
5026
+ "loss": 0.183,
5027
+ "step": 4145
5028
+ },
5029
+ {
5030
+ "epoch": 5.31,
5031
+ "learning_rate": 3.263622136861574e-05,
5032
+ "loss": 0.2204,
5033
+ "step": 4150
5034
+ },
5035
+ {
5036
+ "epoch": 5.32,
5037
+ "learning_rate": 3.2621994593825584e-05,
5038
+ "loss": 0.1661,
5039
+ "step": 4155
5040
+ },
5041
+ {
5042
+ "epoch": 5.33,
5043
+ "learning_rate": 3.2607767819035425e-05,
5044
+ "loss": 0.2355,
5045
+ "step": 4160
5046
+ },
5047
+ {
5048
+ "epoch": 5.33,
5049
+ "learning_rate": 3.259354104424527e-05,
5050
+ "loss": 0.2613,
5051
+ "step": 4165
5052
+ },
5053
+ {
5054
+ "epoch": 5.34,
5055
+ "learning_rate": 3.257931426945512e-05,
5056
+ "loss": 0.1896,
5057
+ "step": 4170
5058
+ },
5059
+ {
5060
+ "epoch": 5.35,
5061
+ "learning_rate": 3.2565087494664966e-05,
5062
+ "loss": 0.2326,
5063
+ "step": 4175
5064
+ },
5065
+ {
5066
+ "epoch": 5.35,
5067
+ "learning_rate": 3.255086071987481e-05,
5068
+ "loss": 0.1743,
5069
+ "step": 4180
5070
+ },
5071
+ {
5072
+ "epoch": 5.36,
5073
+ "learning_rate": 3.2536633945084654e-05,
5074
+ "loss": 0.12,
5075
+ "step": 4185
5076
+ },
5077
+ {
5078
+ "epoch": 5.36,
5079
+ "learning_rate": 3.25224071702945e-05,
5080
+ "loss": 0.1525,
5081
+ "step": 4190
5082
+ },
5083
+ {
5084
+ "epoch": 5.37,
5085
+ "learning_rate": 3.250818039550434e-05,
5086
+ "loss": 0.223,
5087
+ "step": 4195
5088
+ },
5089
+ {
5090
+ "epoch": 5.38,
5091
+ "learning_rate": 3.249395362071419e-05,
5092
+ "loss": 0.1799,
5093
+ "step": 4200
5094
+ },
5095
+ {
5096
+ "epoch": 5.38,
5097
+ "learning_rate": 3.247972684592404e-05,
5098
+ "loss": 0.2391,
5099
+ "step": 4205
5100
+ },
5101
+ {
5102
+ "epoch": 5.39,
5103
+ "learning_rate": 3.246550007113388e-05,
5104
+ "loss": 0.222,
5105
+ "step": 4210
5106
+ },
5107
+ {
5108
+ "epoch": 5.4,
5109
+ "learning_rate": 3.2451273296343724e-05,
5110
+ "loss": 0.1821,
5111
+ "step": 4215
5112
+ },
5113
+ {
5114
+ "epoch": 5.4,
5115
+ "learning_rate": 3.2437046521553565e-05,
5116
+ "loss": 0.2977,
5117
+ "step": 4220
5118
+ },
5119
+ {
5120
+ "epoch": 5.41,
5121
+ "learning_rate": 3.242281974676341e-05,
5122
+ "loss": 0.1666,
5123
+ "step": 4225
5124
+ },
5125
+ {
5126
+ "epoch": 5.42,
5127
+ "learning_rate": 3.240859297197326e-05,
5128
+ "loss": 0.225,
5129
+ "step": 4230
5130
+ },
5131
+ {
5132
+ "epoch": 5.42,
5133
+ "learning_rate": 3.23943661971831e-05,
5134
+ "loss": 0.1507,
5135
+ "step": 4235
5136
+ },
5137
+ {
5138
+ "epoch": 5.43,
5139
+ "learning_rate": 3.238013942239295e-05,
5140
+ "loss": 0.1905,
5141
+ "step": 4240
5142
+ },
5143
+ {
5144
+ "epoch": 5.44,
5145
+ "learning_rate": 3.236591264760279e-05,
5146
+ "loss": 0.2153,
5147
+ "step": 4245
5148
+ },
5149
+ {
5150
+ "epoch": 5.44,
5151
+ "learning_rate": 3.2351685872812635e-05,
5152
+ "loss": 0.1666,
5153
+ "step": 4250
5154
+ },
5155
+ {
5156
+ "epoch": 5.45,
5157
+ "learning_rate": 3.2337459098022476e-05,
5158
+ "loss": 0.2062,
5159
+ "step": 4255
5160
+ },
5161
+ {
5162
+ "epoch": 5.45,
5163
+ "learning_rate": 3.232323232323232e-05,
5164
+ "loss": 0.178,
5165
+ "step": 4260
5166
+ },
5167
+ {
5168
+ "epoch": 5.46,
5169
+ "learning_rate": 3.230900554844217e-05,
5170
+ "loss": 0.2068,
5171
+ "step": 4265
5172
+ },
5173
+ {
5174
+ "epoch": 5.47,
5175
+ "learning_rate": 3.229477877365201e-05,
5176
+ "loss": 0.2439,
5177
+ "step": 4270
5178
+ },
5179
+ {
5180
+ "epoch": 5.47,
5181
+ "learning_rate": 3.228055199886186e-05,
5182
+ "loss": 0.2313,
5183
+ "step": 4275
5184
+ },
5185
+ {
5186
+ "epoch": 5.48,
5187
+ "learning_rate": 3.2266325224071705e-05,
5188
+ "loss": 0.1938,
5189
+ "step": 4280
5190
+ },
5191
+ {
5192
+ "epoch": 5.49,
5193
+ "learning_rate": 3.225209844928155e-05,
5194
+ "loss": 0.1819,
5195
+ "step": 4285
5196
+ },
5197
+ {
5198
+ "epoch": 5.49,
5199
+ "learning_rate": 3.223787167449139e-05,
5200
+ "loss": 0.2532,
5201
+ "step": 4290
5202
+ },
5203
+ {
5204
+ "epoch": 5.5,
5205
+ "learning_rate": 3.222364489970124e-05,
5206
+ "loss": 0.2471,
5207
+ "step": 4295
5208
+ },
5209
+ {
5210
+ "epoch": 5.51,
5211
+ "learning_rate": 3.220941812491109e-05,
5212
+ "loss": 0.2413,
5213
+ "step": 4300
5214
+ },
5215
+ {
5216
+ "epoch": 5.51,
5217
+ "learning_rate": 3.219519135012093e-05,
5218
+ "loss": 0.1755,
5219
+ "step": 4305
5220
+ },
5221
+ {
5222
+ "epoch": 5.52,
5223
+ "learning_rate": 3.2180964575330775e-05,
5224
+ "loss": 0.2192,
5225
+ "step": 4310
5226
+ },
5227
+ {
5228
+ "epoch": 5.52,
5229
+ "learning_rate": 3.216673780054062e-05,
5230
+ "loss": 0.1986,
5231
+ "step": 4315
5232
+ },
5233
+ {
5234
+ "epoch": 5.53,
5235
+ "learning_rate": 3.215251102575046e-05,
5236
+ "loss": 0.2097,
5237
+ "step": 4320
5238
+ },
5239
+ {
5240
+ "epoch": 5.54,
5241
+ "learning_rate": 3.213828425096031e-05,
5242
+ "loss": 0.2471,
5243
+ "step": 4325
5244
+ },
5245
+ {
5246
+ "epoch": 5.54,
5247
+ "learning_rate": 3.212405747617016e-05,
5248
+ "loss": 0.3077,
5249
+ "step": 4330
5250
+ },
5251
+ {
5252
+ "epoch": 5.55,
5253
+ "learning_rate": 3.210983070138e-05,
5254
+ "loss": 0.1834,
5255
+ "step": 4335
5256
+ },
5257
+ {
5258
+ "epoch": 5.56,
5259
+ "learning_rate": 3.2095603926589846e-05,
5260
+ "loss": 0.2494,
5261
+ "step": 4340
5262
+ },
5263
+ {
5264
+ "epoch": 5.56,
5265
+ "learning_rate": 3.208137715179969e-05,
5266
+ "loss": 0.1973,
5267
+ "step": 4345
5268
+ },
5269
+ {
5270
+ "epoch": 5.57,
5271
+ "learning_rate": 3.2067150377009533e-05,
5272
+ "loss": 0.2002,
5273
+ "step": 4350
5274
+ },
5275
+ {
5276
+ "epoch": 5.58,
5277
+ "learning_rate": 3.205292360221938e-05,
5278
+ "loss": 0.1791,
5279
+ "step": 4355
5280
+ },
5281
+ {
5282
+ "epoch": 5.58,
5283
+ "learning_rate": 3.203869682742923e-05,
5284
+ "loss": 0.19,
5285
+ "step": 4360
5286
+ },
5287
+ {
5288
+ "epoch": 5.59,
5289
+ "learning_rate": 3.202447005263907e-05,
5290
+ "loss": 0.199,
5291
+ "step": 4365
5292
+ },
5293
+ {
5294
+ "epoch": 5.6,
5295
+ "learning_rate": 3.2010243277848916e-05,
5296
+ "loss": 0.1823,
5297
+ "step": 4370
5298
+ },
5299
+ {
5300
+ "epoch": 5.6,
5301
+ "learning_rate": 3.199601650305876e-05,
5302
+ "loss": 0.2362,
5303
+ "step": 4375
5304
+ },
5305
+ {
5306
+ "epoch": 5.61,
5307
+ "learning_rate": 3.1981789728268604e-05,
5308
+ "loss": 0.2319,
5309
+ "step": 4380
5310
+ },
5311
+ {
5312
+ "epoch": 5.61,
5313
+ "learning_rate": 3.196756295347845e-05,
5314
+ "loss": 0.1667,
5315
+ "step": 4385
5316
+ },
5317
+ {
5318
+ "epoch": 5.62,
5319
+ "learning_rate": 3.195333617868829e-05,
5320
+ "loss": 0.2043,
5321
+ "step": 4390
5322
+ },
5323
+ {
5324
+ "epoch": 5.63,
5325
+ "learning_rate": 3.193910940389814e-05,
5326
+ "loss": 0.1878,
5327
+ "step": 4395
5328
+ },
5329
+ {
5330
+ "epoch": 5.63,
5331
+ "learning_rate": 3.1924882629107986e-05,
5332
+ "loss": 0.2179,
5333
+ "step": 4400
5334
+ },
5335
+ {
5336
+ "epoch": 5.64,
5337
+ "learning_rate": 3.1910655854317827e-05,
5338
+ "loss": 0.2462,
5339
+ "step": 4405
5340
+ },
5341
+ {
5342
+ "epoch": 5.65,
5343
+ "learning_rate": 3.1896429079527674e-05,
5344
+ "loss": 0.156,
5345
+ "step": 4410
5346
+ },
5347
+ {
5348
+ "epoch": 5.65,
5349
+ "learning_rate": 3.1882202304737514e-05,
5350
+ "loss": 0.209,
5351
+ "step": 4415
5352
+ },
5353
+ {
5354
+ "epoch": 5.66,
5355
+ "learning_rate": 3.186797552994736e-05,
5356
+ "loss": 0.2115,
5357
+ "step": 4420
5358
+ },
5359
+ {
5360
+ "epoch": 5.67,
5361
+ "learning_rate": 3.185374875515721e-05,
5362
+ "loss": 0.1601,
5363
+ "step": 4425
5364
+ },
5365
+ {
5366
+ "epoch": 5.67,
5367
+ "learning_rate": 3.183952198036705e-05,
5368
+ "loss": 0.1846,
5369
+ "step": 4430
5370
+ },
5371
+ {
5372
+ "epoch": 5.68,
5373
+ "learning_rate": 3.18252952055769e-05,
5374
+ "loss": 0.1996,
5375
+ "step": 4435
5376
+ },
5377
+ {
5378
+ "epoch": 5.68,
5379
+ "learning_rate": 3.1811068430786744e-05,
5380
+ "loss": 0.2333,
5381
+ "step": 4440
5382
+ },
5383
+ {
5384
+ "epoch": 5.69,
5385
+ "learning_rate": 3.1796841655996584e-05,
5386
+ "loss": 0.2045,
5387
+ "step": 4445
5388
+ },
5389
+ {
5390
+ "epoch": 5.7,
5391
+ "learning_rate": 3.178261488120643e-05,
5392
+ "loss": 0.1738,
5393
+ "step": 4450
5394
+ },
5395
+ {
5396
+ "epoch": 5.7,
5397
+ "learning_rate": 3.176838810641628e-05,
5398
+ "loss": 0.2008,
5399
+ "step": 4455
5400
+ },
5401
+ {
5402
+ "epoch": 5.71,
5403
+ "learning_rate": 3.175416133162612e-05,
5404
+ "loss": 0.2208,
5405
+ "step": 4460
5406
+ },
5407
+ {
5408
+ "epoch": 5.72,
5409
+ "learning_rate": 3.173993455683597e-05,
5410
+ "loss": 0.2452,
5411
+ "step": 4465
5412
+ },
5413
+ {
5414
+ "epoch": 5.72,
5415
+ "learning_rate": 3.1725707782045814e-05,
5416
+ "loss": 0.2009,
5417
+ "step": 4470
5418
+ },
5419
+ {
5420
+ "epoch": 5.73,
5421
+ "learning_rate": 3.1711481007255655e-05,
5422
+ "loss": 0.2077,
5423
+ "step": 4475
5424
+ },
5425
+ {
5426
+ "epoch": 5.74,
5427
+ "learning_rate": 3.16972542324655e-05,
5428
+ "loss": 0.2101,
5429
+ "step": 4480
5430
+ },
5431
+ {
5432
+ "epoch": 5.74,
5433
+ "learning_rate": 3.168302745767535e-05,
5434
+ "loss": 0.2303,
5435
+ "step": 4485
5436
+ },
5437
+ {
5438
+ "epoch": 5.75,
5439
+ "learning_rate": 3.1668800682885197e-05,
5440
+ "loss": 0.178,
5441
+ "step": 4490
5442
+ },
5443
+ {
5444
+ "epoch": 5.76,
5445
+ "learning_rate": 3.165457390809504e-05,
5446
+ "loss": 0.2568,
5447
+ "step": 4495
5448
+ },
5449
+ {
5450
+ "epoch": 5.76,
5451
+ "learning_rate": 3.1640347133304884e-05,
5452
+ "loss": 0.2905,
5453
+ "step": 4500
5454
+ },
5455
+ {
5456
+ "epoch": 5.77,
5457
+ "learning_rate": 3.162612035851473e-05,
5458
+ "loss": 0.1791,
5459
+ "step": 4505
5460
+ },
5461
+ {
5462
+ "epoch": 5.77,
5463
+ "learning_rate": 3.161189358372457e-05,
5464
+ "loss": 0.2422,
5465
+ "step": 4510
5466
+ },
5467
+ {
5468
+ "epoch": 5.78,
5469
+ "learning_rate": 3.159766680893442e-05,
5470
+ "loss": 0.2769,
5471
+ "step": 4515
5472
+ },
5473
+ {
5474
+ "epoch": 5.79,
5475
+ "learning_rate": 3.158344003414427e-05,
5476
+ "loss": 0.1691,
5477
+ "step": 4520
5478
+ },
5479
+ {
5480
+ "epoch": 5.79,
5481
+ "learning_rate": 3.156921325935411e-05,
5482
+ "loss": 0.2357,
5483
+ "step": 4525
5484
+ },
5485
+ {
5486
+ "epoch": 5.8,
5487
+ "learning_rate": 3.1554986484563954e-05,
5488
+ "loss": 0.2224,
5489
+ "step": 4530
5490
+ },
5491
+ {
5492
+ "epoch": 5.81,
5493
+ "learning_rate": 3.1540759709773795e-05,
5494
+ "loss": 0.1777,
5495
+ "step": 4535
5496
+ },
5497
+ {
5498
+ "epoch": 5.81,
5499
+ "learning_rate": 3.152653293498364e-05,
5500
+ "loss": 0.2366,
5501
+ "step": 4540
5502
+ },
5503
+ {
5504
+ "epoch": 5.82,
5505
+ "learning_rate": 3.151230616019349e-05,
5506
+ "loss": 0.2274,
5507
+ "step": 4545
5508
+ },
5509
+ {
5510
+ "epoch": 5.83,
5511
+ "learning_rate": 3.149807938540333e-05,
5512
+ "loss": 0.2297,
5513
+ "step": 4550
5514
+ },
5515
+ {
5516
+ "epoch": 5.83,
5517
+ "learning_rate": 3.148385261061318e-05,
5518
+ "loss": 0.1871,
5519
+ "step": 4555
5520
+ },
5521
+ {
5522
+ "epoch": 5.84,
5523
+ "learning_rate": 3.146962583582302e-05,
5524
+ "loss": 0.2088,
5525
+ "step": 4560
5526
+ },
5527
+ {
5528
+ "epoch": 5.84,
5529
+ "learning_rate": 3.1455399061032865e-05,
5530
+ "loss": 0.2148,
5531
+ "step": 4565
5532
+ },
5533
+ {
5534
+ "epoch": 5.85,
5535
+ "learning_rate": 3.144117228624271e-05,
5536
+ "loss": 0.1979,
5537
+ "step": 4570
5538
+ },
5539
+ {
5540
+ "epoch": 5.86,
5541
+ "learning_rate": 3.142694551145255e-05,
5542
+ "loss": 0.1561,
5543
+ "step": 4575
5544
+ },
5545
+ {
5546
+ "epoch": 5.86,
5547
+ "learning_rate": 3.14127187366624e-05,
5548
+ "loss": 0.272,
5549
+ "step": 4580
5550
+ },
5551
+ {
5552
+ "epoch": 5.87,
5553
+ "learning_rate": 3.139849196187225e-05,
5554
+ "loss": 0.2451,
5555
+ "step": 4585
5556
+ },
5557
+ {
5558
+ "epoch": 5.88,
5559
+ "learning_rate": 3.138426518708209e-05,
5560
+ "loss": 0.1517,
5561
+ "step": 4590
5562
+ },
5563
+ {
5564
+ "epoch": 5.88,
5565
+ "learning_rate": 3.1370038412291935e-05,
5566
+ "loss": 0.264,
5567
+ "step": 4595
5568
+ },
5569
+ {
5570
+ "epoch": 5.89,
5571
+ "learning_rate": 3.135581163750178e-05,
5572
+ "loss": 0.2004,
5573
+ "step": 4600
5574
+ },
5575
+ {
5576
+ "epoch": 5.9,
5577
+ "learning_rate": 3.134158486271162e-05,
5578
+ "loss": 0.2062,
5579
+ "step": 4605
5580
+ },
5581
+ {
5582
+ "epoch": 5.9,
5583
+ "learning_rate": 3.132735808792147e-05,
5584
+ "loss": 0.231,
5585
+ "step": 4610
5586
+ },
5587
+ {
5588
+ "epoch": 5.91,
5589
+ "learning_rate": 3.131313131313132e-05,
5590
+ "loss": 0.2246,
5591
+ "step": 4615
5592
+ },
5593
+ {
5594
+ "epoch": 5.92,
5595
+ "learning_rate": 3.129890453834116e-05,
5596
+ "loss": 0.2241,
5597
+ "step": 4620
5598
+ },
5599
+ {
5600
+ "epoch": 5.92,
5601
+ "learning_rate": 3.1284677763551006e-05,
5602
+ "loss": 0.1962,
5603
+ "step": 4625
5604
+ },
5605
+ {
5606
+ "epoch": 5.93,
5607
+ "learning_rate": 3.127045098876085e-05,
5608
+ "loss": 0.2359,
5609
+ "step": 4630
5610
+ },
5611
+ {
5612
+ "epoch": 5.93,
5613
+ "learning_rate": 3.125622421397069e-05,
5614
+ "loss": 0.2372,
5615
+ "step": 4635
5616
+ },
5617
+ {
5618
+ "epoch": 5.94,
5619
+ "learning_rate": 3.124199743918054e-05,
5620
+ "loss": 0.1803,
5621
+ "step": 4640
5622
+ },
5623
+ {
5624
+ "epoch": 5.95,
5625
+ "learning_rate": 3.122777066439039e-05,
5626
+ "loss": 0.1941,
5627
+ "step": 4645
5628
+ },
5629
+ {
5630
+ "epoch": 5.95,
5631
+ "learning_rate": 3.121354388960023e-05,
5632
+ "loss": 0.1994,
5633
+ "step": 4650
5634
+ },
5635
+ {
5636
+ "epoch": 5.96,
5637
+ "learning_rate": 3.1199317114810076e-05,
5638
+ "loss": 0.1674,
5639
+ "step": 4655
5640
+ },
5641
+ {
5642
+ "epoch": 5.97,
5643
+ "learning_rate": 3.118509034001992e-05,
5644
+ "loss": 0.1825,
5645
+ "step": 4660
5646
+ },
5647
+ {
5648
+ "epoch": 5.97,
5649
+ "learning_rate": 3.1170863565229763e-05,
5650
+ "loss": 0.183,
5651
+ "step": 4665
5652
+ },
5653
+ {
5654
+ "epoch": 5.98,
5655
+ "learning_rate": 3.115663679043961e-05,
5656
+ "loss": 0.2467,
5657
+ "step": 4670
5658
+ },
5659
+ {
5660
+ "epoch": 5.99,
5661
+ "learning_rate": 3.114241001564946e-05,
5662
+ "loss": 0.2009,
5663
+ "step": 4675
5664
+ },
5665
+ {
5666
+ "epoch": 5.99,
5667
+ "learning_rate": 3.11281832408593e-05,
5668
+ "loss": 0.2184,
5669
+ "step": 4680
5670
+ },
5671
+ {
5672
+ "epoch": 6.0,
5673
+ "learning_rate": 3.1113956466069146e-05,
5674
+ "loss": 0.2589,
5675
+ "step": 4685
5676
+ },
5677
+ {
5678
+ "epoch": 6.0,
5679
+ "eval_accuracy": 0.8622,
5680
+ "eval_loss": 0.4774980843067169,
5681
+ "eval_runtime": 58.8421,
5682
+ "eval_samples_per_second": 169.946,
5683
+ "eval_steps_per_second": 10.622,
5684
+ "step": 4686
5685
+ },
5686
+ {
5687
+ "epoch": 6.01,
5688
+ "learning_rate": 3.109972969127899e-05,
5689
+ "loss": 0.1885,
5690
+ "step": 4690
5691
+ },
5692
+ {
5693
+ "epoch": 6.01,
5694
+ "learning_rate": 3.1085502916488834e-05,
5695
+ "loss": 0.1172,
5696
+ "step": 4695
5697
+ },
5698
+ {
5699
+ "epoch": 6.02,
5700
+ "learning_rate": 3.107127614169868e-05,
5701
+ "loss": 0.1204,
5702
+ "step": 4700
5703
+ },
5704
+ {
5705
+ "epoch": 6.02,
5706
+ "learning_rate": 3.105704936690853e-05,
5707
+ "loss": 0.1306,
5708
+ "step": 4705
5709
+ },
5710
+ {
5711
+ "epoch": 6.03,
5712
+ "learning_rate": 3.104282259211837e-05,
5713
+ "loss": 0.1688,
5714
+ "step": 4710
5715
+ },
5716
+ {
5717
+ "epoch": 6.04,
5718
+ "learning_rate": 3.1028595817328216e-05,
5719
+ "loss": 0.1379,
5720
+ "step": 4715
5721
+ },
5722
+ {
5723
+ "epoch": 6.04,
5724
+ "learning_rate": 3.1014369042538057e-05,
5725
+ "loss": 0.0961,
5726
+ "step": 4720
5727
+ },
5728
+ {
5729
+ "epoch": 6.05,
5730
+ "learning_rate": 3.1000142267747904e-05,
5731
+ "loss": 0.1494,
5732
+ "step": 4725
5733
+ },
5734
+ {
5735
+ "epoch": 6.06,
5736
+ "learning_rate": 3.0985915492957744e-05,
5737
+ "loss": 0.1411,
5738
+ "step": 4730
5739
+ },
5740
+ {
5741
+ "epoch": 6.06,
5742
+ "learning_rate": 3.097168871816759e-05,
5743
+ "loss": 0.1237,
5744
+ "step": 4735
5745
+ },
5746
+ {
5747
+ "epoch": 6.07,
5748
+ "learning_rate": 3.095746194337744e-05,
5749
+ "loss": 0.2125,
5750
+ "step": 4740
5751
+ },
5752
+ {
5753
+ "epoch": 6.08,
5754
+ "learning_rate": 3.094323516858728e-05,
5755
+ "loss": 0.0896,
5756
+ "step": 4745
5757
+ },
5758
+ {
5759
+ "epoch": 6.08,
5760
+ "learning_rate": 3.092900839379713e-05,
5761
+ "loss": 0.1399,
5762
+ "step": 4750
5763
+ },
5764
+ {
5765
+ "epoch": 6.09,
5766
+ "learning_rate": 3.0914781619006974e-05,
5767
+ "loss": 0.1609,
5768
+ "step": 4755
5769
+ },
5770
+ {
5771
+ "epoch": 6.09,
5772
+ "learning_rate": 3.0900554844216815e-05,
5773
+ "loss": 0.143,
5774
+ "step": 4760
5775
+ },
5776
+ {
5777
+ "epoch": 6.1,
5778
+ "learning_rate": 3.088632806942666e-05,
5779
+ "loss": 0.1704,
5780
+ "step": 4765
5781
+ },
5782
+ {
5783
+ "epoch": 6.11,
5784
+ "learning_rate": 3.087210129463651e-05,
5785
+ "loss": 0.1383,
5786
+ "step": 4770
5787
+ },
5788
+ {
5789
+ "epoch": 6.11,
5790
+ "learning_rate": 3.085787451984635e-05,
5791
+ "loss": 0.1563,
5792
+ "step": 4775
5793
+ },
5794
+ {
5795
+ "epoch": 6.12,
5796
+ "learning_rate": 3.08436477450562e-05,
5797
+ "loss": 0.1264,
5798
+ "step": 4780
5799
+ },
5800
+ {
5801
+ "epoch": 6.13,
5802
+ "learning_rate": 3.0829420970266044e-05,
5803
+ "loss": 0.1716,
5804
+ "step": 4785
5805
+ },
5806
+ {
5807
+ "epoch": 6.13,
5808
+ "learning_rate": 3.0815194195475885e-05,
5809
+ "loss": 0.162,
5810
+ "step": 4790
5811
+ },
5812
+ {
5813
+ "epoch": 6.14,
5814
+ "learning_rate": 3.080096742068573e-05,
5815
+ "loss": 0.1408,
5816
+ "step": 4795
5817
+ },
5818
+ {
5819
+ "epoch": 6.15,
5820
+ "learning_rate": 3.078674064589558e-05,
5821
+ "loss": 0.1411,
5822
+ "step": 4800
5823
+ },
5824
+ {
5825
+ "epoch": 6.15,
5826
+ "learning_rate": 3.0772513871105427e-05,
5827
+ "loss": 0.1521,
5828
+ "step": 4805
5829
+ },
5830
+ {
5831
+ "epoch": 6.16,
5832
+ "learning_rate": 3.075828709631527e-05,
5833
+ "loss": 0.1162,
5834
+ "step": 4810
5835
+ },
5836
+ {
5837
+ "epoch": 6.17,
5838
+ "learning_rate": 3.0744060321525114e-05,
5839
+ "loss": 0.209,
5840
+ "step": 4815
5841
+ },
5842
+ {
5843
+ "epoch": 6.17,
5844
+ "learning_rate": 3.072983354673496e-05,
5845
+ "loss": 0.1504,
5846
+ "step": 4820
5847
+ },
5848
+ {
5849
+ "epoch": 6.18,
5850
+ "learning_rate": 3.07156067719448e-05,
5851
+ "loss": 0.1631,
5852
+ "step": 4825
5853
+ },
5854
+ {
5855
+ "epoch": 6.18,
5856
+ "learning_rate": 3.070137999715465e-05,
5857
+ "loss": 0.1975,
5858
+ "step": 4830
5859
+ },
5860
+ {
5861
+ "epoch": 6.19,
5862
+ "learning_rate": 3.06871532223645e-05,
5863
+ "loss": 0.155,
5864
+ "step": 4835
5865
+ },
5866
+ {
5867
+ "epoch": 6.2,
5868
+ "learning_rate": 3.067292644757434e-05,
5869
+ "loss": 0.1489,
5870
+ "step": 4840
5871
+ },
5872
+ {
5873
+ "epoch": 6.2,
5874
+ "learning_rate": 3.0658699672784185e-05,
5875
+ "loss": 0.218,
5876
+ "step": 4845
5877
+ },
5878
+ {
5879
+ "epoch": 6.21,
5880
+ "learning_rate": 3.064447289799403e-05,
5881
+ "loss": 0.144,
5882
+ "step": 4850
5883
+ },
5884
+ {
5885
+ "epoch": 6.22,
5886
+ "learning_rate": 3.063024612320387e-05,
5887
+ "loss": 0.1304,
5888
+ "step": 4855
5889
+ },
5890
+ {
5891
+ "epoch": 6.22,
5892
+ "learning_rate": 3.061601934841372e-05,
5893
+ "loss": 0.1426,
5894
+ "step": 4860
5895
+ },
5896
+ {
5897
+ "epoch": 6.23,
5898
+ "learning_rate": 3.060179257362356e-05,
5899
+ "loss": 0.1589,
5900
+ "step": 4865
5901
+ },
5902
+ {
5903
+ "epoch": 6.24,
5904
+ "learning_rate": 3.058756579883341e-05,
5905
+ "loss": 0.1159,
5906
+ "step": 4870
5907
+ },
5908
+ {
5909
+ "epoch": 6.24,
5910
+ "learning_rate": 3.0573339024043255e-05,
5911
+ "loss": 0.1731,
5912
+ "step": 4875
5913
+ },
5914
+ {
5915
+ "epoch": 6.25,
5916
+ "learning_rate": 3.0559112249253095e-05,
5917
+ "loss": 0.1831,
5918
+ "step": 4880
5919
+ },
5920
+ {
5921
+ "epoch": 6.25,
5922
+ "learning_rate": 3.054488547446294e-05,
5923
+ "loss": 0.1269,
5924
+ "step": 4885
5925
+ },
5926
+ {
5927
+ "epoch": 6.26,
5928
+ "learning_rate": 3.053065869967278e-05,
5929
+ "loss": 0.1489,
5930
+ "step": 4890
5931
+ },
5932
+ {
5933
+ "epoch": 6.27,
5934
+ "learning_rate": 3.0516431924882634e-05,
5935
+ "loss": 0.1796,
5936
+ "step": 4895
5937
+ },
5938
+ {
5939
+ "epoch": 6.27,
5940
+ "learning_rate": 3.0502205150092478e-05,
5941
+ "loss": 0.1082,
5942
+ "step": 4900
5943
+ },
5944
+ {
5945
+ "epoch": 6.28,
5946
+ "learning_rate": 3.048797837530232e-05,
5947
+ "loss": 0.1524,
5948
+ "step": 4905
5949
+ },
5950
+ {
5951
+ "epoch": 6.29,
5952
+ "learning_rate": 3.0473751600512165e-05,
5953
+ "loss": 0.1445,
5954
+ "step": 4910
5955
+ },
5956
+ {
5957
+ "epoch": 6.29,
5958
+ "learning_rate": 3.0459524825722013e-05,
5959
+ "loss": 0.1245,
5960
+ "step": 4915
5961
+ },
5962
+ {
5963
+ "epoch": 6.3,
5964
+ "learning_rate": 3.0445298050931857e-05,
5965
+ "loss": 0.2082,
5966
+ "step": 4920
5967
+ },
5968
+ {
5969
+ "epoch": 6.31,
5970
+ "learning_rate": 3.04310712761417e-05,
5971
+ "loss": 0.1317,
5972
+ "step": 4925
5973
+ },
5974
+ {
5975
+ "epoch": 6.31,
5976
+ "learning_rate": 3.0416844501351548e-05,
5977
+ "loss": 0.1398,
5978
+ "step": 4930
5979
+ },
5980
+ {
5981
+ "epoch": 6.32,
5982
+ "learning_rate": 3.0402617726561388e-05,
5983
+ "loss": 0.1535,
5984
+ "step": 4935
5985
+ },
5986
+ {
5987
+ "epoch": 6.33,
5988
+ "learning_rate": 3.0388390951771236e-05,
5989
+ "loss": 0.1526,
5990
+ "step": 4940
5991
+ },
5992
+ {
5993
+ "epoch": 6.33,
5994
+ "learning_rate": 3.0374164176981083e-05,
5995
+ "loss": 0.1455,
5996
+ "step": 4945
5997
+ },
5998
+ {
5999
+ "epoch": 6.34,
6000
+ "learning_rate": 3.0359937402190923e-05,
6001
+ "loss": 0.1585,
6002
+ "step": 4950
6003
+ },
6004
+ {
6005
+ "epoch": 6.34,
6006
+ "learning_rate": 3.034571062740077e-05,
6007
+ "loss": 0.0949,
6008
+ "step": 4955
6009
+ },
6010
+ {
6011
+ "epoch": 6.35,
6012
+ "learning_rate": 3.0331483852610618e-05,
6013
+ "loss": 0.1112,
6014
+ "step": 4960
6015
+ },
6016
+ {
6017
+ "epoch": 6.36,
6018
+ "learning_rate": 3.031725707782046e-05,
6019
+ "loss": 0.1918,
6020
+ "step": 4965
6021
+ },
6022
+ {
6023
+ "epoch": 6.36,
6024
+ "learning_rate": 3.0303030303030306e-05,
6025
+ "loss": 0.1097,
6026
+ "step": 4970
6027
+ },
6028
+ {
6029
+ "epoch": 6.37,
6030
+ "learning_rate": 3.0288803528240153e-05,
6031
+ "loss": 0.1625,
6032
+ "step": 4975
6033
+ },
6034
+ {
6035
+ "epoch": 6.38,
6036
+ "learning_rate": 3.0274576753449994e-05,
6037
+ "loss": 0.216,
6038
+ "step": 4980
6039
+ },
6040
+ {
6041
+ "epoch": 6.38,
6042
+ "learning_rate": 3.026034997865984e-05,
6043
+ "loss": 0.1963,
6044
+ "step": 4985
6045
+ },
6046
+ {
6047
+ "epoch": 6.39,
6048
+ "learning_rate": 3.0246123203869685e-05,
6049
+ "loss": 0.0797,
6050
+ "step": 4990
6051
+ },
6052
+ {
6053
+ "epoch": 6.4,
6054
+ "learning_rate": 3.023189642907953e-05,
6055
+ "loss": 0.1663,
6056
+ "step": 4995
6057
+ },
6058
+ {
6059
+ "epoch": 6.4,
6060
+ "learning_rate": 3.0217669654289376e-05,
6061
+ "loss": 0.1426,
6062
+ "step": 5000
6063
+ },
6064
+ {
6065
+ "epoch": 6.41,
6066
+ "learning_rate": 3.020344287949922e-05,
6067
+ "loss": 0.1107,
6068
+ "step": 5005
6069
+ },
6070
+ {
6071
+ "epoch": 6.41,
6072
+ "learning_rate": 3.0189216104709067e-05,
6073
+ "loss": 0.1893,
6074
+ "step": 5010
6075
+ },
6076
+ {
6077
+ "epoch": 6.42,
6078
+ "learning_rate": 3.0174989329918908e-05,
6079
+ "loss": 0.165,
6080
+ "step": 5015
6081
+ },
6082
+ {
6083
+ "epoch": 6.43,
6084
+ "learning_rate": 3.0160762555128755e-05,
6085
+ "loss": 0.1391,
6086
+ "step": 5020
6087
+ },
6088
+ {
6089
+ "epoch": 6.43,
6090
+ "learning_rate": 3.0146535780338602e-05,
6091
+ "loss": 0.0906,
6092
+ "step": 5025
6093
+ },
6094
+ {
6095
+ "epoch": 6.44,
6096
+ "learning_rate": 3.0132309005548443e-05,
6097
+ "loss": 0.1649,
6098
+ "step": 5030
6099
+ },
6100
+ {
6101
+ "epoch": 6.45,
6102
+ "learning_rate": 3.011808223075829e-05,
6103
+ "loss": 0.1355,
6104
+ "step": 5035
6105
+ },
6106
+ {
6107
+ "epoch": 6.45,
6108
+ "learning_rate": 3.0103855455968137e-05,
6109
+ "loss": 0.1781,
6110
+ "step": 5040
6111
+ },
6112
+ {
6113
+ "epoch": 6.46,
6114
+ "learning_rate": 3.0089628681177978e-05,
6115
+ "loss": 0.161,
6116
+ "step": 5045
6117
+ },
6118
+ {
6119
+ "epoch": 6.47,
6120
+ "learning_rate": 3.0075401906387825e-05,
6121
+ "loss": 0.15,
6122
+ "step": 5050
6123
+ },
6124
+ {
6125
+ "epoch": 6.47,
6126
+ "learning_rate": 3.0061175131597672e-05,
6127
+ "loss": 0.1811,
6128
+ "step": 5055
6129
+ },
6130
+ {
6131
+ "epoch": 6.48,
6132
+ "learning_rate": 3.0046948356807513e-05,
6133
+ "loss": 0.1895,
6134
+ "step": 5060
6135
+ },
6136
+ {
6137
+ "epoch": 6.49,
6138
+ "learning_rate": 3.003272158201736e-05,
6139
+ "loss": 0.1377,
6140
+ "step": 5065
6141
+ },
6142
+ {
6143
+ "epoch": 6.49,
6144
+ "learning_rate": 3.0018494807227204e-05,
6145
+ "loss": 0.1933,
6146
+ "step": 5070
6147
+ },
6148
+ {
6149
+ "epoch": 6.5,
6150
+ "learning_rate": 3.0004268032437048e-05,
6151
+ "loss": 0.1105,
6152
+ "step": 5075
6153
+ },
6154
+ {
6155
+ "epoch": 6.5,
6156
+ "learning_rate": 2.9990041257646895e-05,
6157
+ "loss": 0.134,
6158
+ "step": 5080
6159
+ },
6160
+ {
6161
+ "epoch": 6.51,
6162
+ "learning_rate": 2.997581448285674e-05,
6163
+ "loss": 0.1476,
6164
+ "step": 5085
6165
+ },
6166
+ {
6167
+ "epoch": 6.52,
6168
+ "learning_rate": 2.9961587708066583e-05,
6169
+ "loss": 0.1469,
6170
+ "step": 5090
6171
+ },
6172
+ {
6173
+ "epoch": 6.52,
6174
+ "learning_rate": 2.9947360933276427e-05,
6175
+ "loss": 0.1646,
6176
+ "step": 5095
6177
+ },
6178
+ {
6179
+ "epoch": 6.53,
6180
+ "learning_rate": 2.9933134158486274e-05,
6181
+ "loss": 0.2304,
6182
+ "step": 5100
6183
+ },
6184
+ {
6185
+ "epoch": 6.54,
6186
+ "learning_rate": 2.9918907383696115e-05,
6187
+ "loss": 0.1486,
6188
+ "step": 5105
6189
+ },
6190
+ {
6191
+ "epoch": 6.54,
6192
+ "learning_rate": 2.9904680608905962e-05,
6193
+ "loss": 0.1456,
6194
+ "step": 5110
6195
+ },
6196
+ {
6197
+ "epoch": 6.55,
6198
+ "learning_rate": 2.989045383411581e-05,
6199
+ "loss": 0.138,
6200
+ "step": 5115
6201
+ },
6202
+ {
6203
+ "epoch": 6.56,
6204
+ "learning_rate": 2.9876227059325657e-05,
6205
+ "loss": 0.126,
6206
+ "step": 5120
6207
+ },
6208
+ {
6209
+ "epoch": 6.56,
6210
+ "learning_rate": 2.9862000284535497e-05,
6211
+ "loss": 0.1452,
6212
+ "step": 5125
6213
+ },
6214
+ {
6215
+ "epoch": 6.57,
6216
+ "learning_rate": 2.9847773509745344e-05,
6217
+ "loss": 0.181,
6218
+ "step": 5130
6219
+ },
6220
+ {
6221
+ "epoch": 6.57,
6222
+ "learning_rate": 2.9833546734955188e-05,
6223
+ "loss": 0.1938,
6224
+ "step": 5135
6225
+ },
6226
+ {
6227
+ "epoch": 6.58,
6228
+ "learning_rate": 2.9819319960165032e-05,
6229
+ "loss": 0.1802,
6230
+ "step": 5140
6231
+ },
6232
+ {
6233
+ "epoch": 6.59,
6234
+ "learning_rate": 2.980509318537488e-05,
6235
+ "loss": 0.1488,
6236
+ "step": 5145
6237
+ },
6238
+ {
6239
+ "epoch": 6.59,
6240
+ "learning_rate": 2.9790866410584723e-05,
6241
+ "loss": 0.1856,
6242
+ "step": 5150
6243
+ },
6244
+ {
6245
+ "epoch": 6.6,
6246
+ "learning_rate": 2.9776639635794567e-05,
6247
+ "loss": 0.1021,
6248
+ "step": 5155
6249
+ },
6250
+ {
6251
+ "epoch": 6.61,
6252
+ "learning_rate": 2.976241286100441e-05,
6253
+ "loss": 0.1413,
6254
+ "step": 5160
6255
+ },
6256
+ {
6257
+ "epoch": 6.61,
6258
+ "learning_rate": 2.974818608621426e-05,
6259
+ "loss": 0.1775,
6260
+ "step": 5165
6261
+ },
6262
+ {
6263
+ "epoch": 6.62,
6264
+ "learning_rate": 2.9733959311424102e-05,
6265
+ "loss": 0.095,
6266
+ "step": 5170
6267
+ },
6268
+ {
6269
+ "epoch": 6.63,
6270
+ "learning_rate": 2.9719732536633946e-05,
6271
+ "loss": 0.1737,
6272
+ "step": 5175
6273
+ },
6274
+ {
6275
+ "epoch": 6.63,
6276
+ "learning_rate": 2.9705505761843794e-05,
6277
+ "loss": 0.1217,
6278
+ "step": 5180
6279
+ },
6280
+ {
6281
+ "epoch": 6.64,
6282
+ "learning_rate": 2.9691278987053634e-05,
6283
+ "loss": 0.0981,
6284
+ "step": 5185
6285
+ },
6286
+ {
6287
+ "epoch": 6.65,
6288
+ "learning_rate": 2.967705221226348e-05,
6289
+ "loss": 0.1533,
6290
+ "step": 5190
6291
+ },
6292
+ {
6293
+ "epoch": 6.65,
6294
+ "learning_rate": 2.966282543747333e-05,
6295
+ "loss": 0.211,
6296
+ "step": 5195
6297
+ },
6298
+ {
6299
+ "epoch": 6.66,
6300
+ "learning_rate": 2.964859866268317e-05,
6301
+ "loss": 0.1413,
6302
+ "step": 5200
6303
+ },
6304
+ {
6305
+ "epoch": 6.66,
6306
+ "learning_rate": 2.9634371887893016e-05,
6307
+ "loss": 0.1936,
6308
+ "step": 5205
6309
+ },
6310
+ {
6311
+ "epoch": 6.67,
6312
+ "learning_rate": 2.9620145113102864e-05,
6313
+ "loss": 0.1873,
6314
+ "step": 5210
6315
+ },
6316
+ {
6317
+ "epoch": 6.68,
6318
+ "learning_rate": 2.9605918338312708e-05,
6319
+ "loss": 0.1684,
6320
+ "step": 5215
6321
+ },
6322
+ {
6323
+ "epoch": 6.68,
6324
+ "learning_rate": 2.959169156352255e-05,
6325
+ "loss": 0.142,
6326
+ "step": 5220
6327
+ },
6328
+ {
6329
+ "epoch": 6.69,
6330
+ "learning_rate": 2.95774647887324e-05,
6331
+ "loss": 0.1253,
6332
+ "step": 5225
6333
+ },
6334
+ {
6335
+ "epoch": 6.7,
6336
+ "learning_rate": 2.9563238013942243e-05,
6337
+ "loss": 0.1739,
6338
+ "step": 5230
6339
+ },
6340
+ {
6341
+ "epoch": 6.7,
6342
+ "learning_rate": 2.9549011239152087e-05,
6343
+ "loss": 0.1478,
6344
+ "step": 5235
6345
+ },
6346
+ {
6347
+ "epoch": 6.71,
6348
+ "learning_rate": 2.953478446436193e-05,
6349
+ "loss": 0.1689,
6350
+ "step": 5240
6351
+ },
6352
+ {
6353
+ "epoch": 6.72,
6354
+ "learning_rate": 2.9520557689571778e-05,
6355
+ "loss": 0.1662,
6356
+ "step": 5245
6357
+ },
6358
+ {
6359
+ "epoch": 6.72,
6360
+ "learning_rate": 2.950633091478162e-05,
6361
+ "loss": 0.136,
6362
+ "step": 5250
6363
+ },
6364
+ {
6365
+ "epoch": 6.73,
6366
+ "learning_rate": 2.9492104139991466e-05,
6367
+ "loss": 0.1305,
6368
+ "step": 5255
6369
+ },
6370
+ {
6371
+ "epoch": 6.73,
6372
+ "learning_rate": 2.9477877365201313e-05,
6373
+ "loss": 0.1186,
6374
+ "step": 5260
6375
+ },
6376
+ {
6377
+ "epoch": 6.74,
6378
+ "learning_rate": 2.9463650590411153e-05,
6379
+ "loss": 0.092,
6380
+ "step": 5265
6381
+ },
6382
+ {
6383
+ "epoch": 6.75,
6384
+ "learning_rate": 2.9449423815621e-05,
6385
+ "loss": 0.1752,
6386
+ "step": 5270
6387
+ },
6388
+ {
6389
+ "epoch": 6.75,
6390
+ "learning_rate": 2.9435197040830848e-05,
6391
+ "loss": 0.1549,
6392
+ "step": 5275
6393
+ },
6394
+ {
6395
+ "epoch": 6.76,
6396
+ "learning_rate": 2.942097026604069e-05,
6397
+ "loss": 0.1603,
6398
+ "step": 5280
6399
+ },
6400
+ {
6401
+ "epoch": 6.77,
6402
+ "learning_rate": 2.9406743491250536e-05,
6403
+ "loss": 0.1791,
6404
+ "step": 5285
6405
+ },
6406
+ {
6407
+ "epoch": 6.77,
6408
+ "learning_rate": 2.9392516716460383e-05,
6409
+ "loss": 0.1655,
6410
+ "step": 5290
6411
+ },
6412
+ {
6413
+ "epoch": 6.78,
6414
+ "learning_rate": 2.9378289941670224e-05,
6415
+ "loss": 0.1347,
6416
+ "step": 5295
6417
+ },
6418
+ {
6419
+ "epoch": 6.79,
6420
+ "learning_rate": 2.936406316688007e-05,
6421
+ "loss": 0.1365,
6422
+ "step": 5300
6423
+ },
6424
+ {
6425
+ "epoch": 6.79,
6426
+ "learning_rate": 2.9349836392089918e-05,
6427
+ "loss": 0.1827,
6428
+ "step": 5305
6429
+ },
6430
+ {
6431
+ "epoch": 6.8,
6432
+ "learning_rate": 2.933560961729976e-05,
6433
+ "loss": 0.2096,
6434
+ "step": 5310
6435
+ },
6436
+ {
6437
+ "epoch": 6.81,
6438
+ "learning_rate": 2.9321382842509606e-05,
6439
+ "loss": 0.1595,
6440
+ "step": 5315
6441
+ },
6442
+ {
6443
+ "epoch": 6.81,
6444
+ "learning_rate": 2.930715606771945e-05,
6445
+ "loss": 0.1254,
6446
+ "step": 5320
6447
+ },
6448
+ {
6449
+ "epoch": 6.82,
6450
+ "learning_rate": 2.9292929292929297e-05,
6451
+ "loss": 0.2147,
6452
+ "step": 5325
6453
+ },
6454
+ {
6455
+ "epoch": 6.82,
6456
+ "learning_rate": 2.927870251813914e-05,
6457
+ "loss": 0.0987,
6458
+ "step": 5330
6459
+ },
6460
+ {
6461
+ "epoch": 6.83,
6462
+ "learning_rate": 2.9264475743348985e-05,
6463
+ "loss": 0.187,
6464
+ "step": 5335
6465
+ },
6466
+ {
6467
+ "epoch": 6.84,
6468
+ "learning_rate": 2.9250248968558832e-05,
6469
+ "loss": 0.1033,
6470
+ "step": 5340
6471
+ },
6472
+ {
6473
+ "epoch": 6.84,
6474
+ "learning_rate": 2.9236022193768673e-05,
6475
+ "loss": 0.1558,
6476
+ "step": 5345
6477
+ },
6478
+ {
6479
+ "epoch": 6.85,
6480
+ "learning_rate": 2.922179541897852e-05,
6481
+ "loss": 0.1656,
6482
+ "step": 5350
6483
+ },
6484
+ {
6485
+ "epoch": 6.86,
6486
+ "learning_rate": 2.9207568644188367e-05,
6487
+ "loss": 0.1316,
6488
+ "step": 5355
6489
+ },
6490
+ {
6491
+ "epoch": 6.86,
6492
+ "learning_rate": 2.9193341869398208e-05,
6493
+ "loss": 0.1157,
6494
+ "step": 5360
6495
+ },
6496
+ {
6497
+ "epoch": 6.87,
6498
+ "learning_rate": 2.9179115094608055e-05,
6499
+ "loss": 0.1095,
6500
+ "step": 5365
6501
+ },
6502
+ {
6503
+ "epoch": 6.88,
6504
+ "learning_rate": 2.9164888319817902e-05,
6505
+ "loss": 0.1144,
6506
+ "step": 5370
6507
+ },
6508
+ {
6509
+ "epoch": 6.88,
6510
+ "learning_rate": 2.9150661545027743e-05,
6511
+ "loss": 0.1884,
6512
+ "step": 5375
6513
+ },
6514
+ {
6515
+ "epoch": 6.89,
6516
+ "learning_rate": 2.913643477023759e-05,
6517
+ "loss": 0.1534,
6518
+ "step": 5380
6519
+ },
6520
+ {
6521
+ "epoch": 6.89,
6522
+ "learning_rate": 2.9122207995447434e-05,
6523
+ "loss": 0.1372,
6524
+ "step": 5385
6525
+ },
6526
+ {
6527
+ "epoch": 6.9,
6528
+ "learning_rate": 2.9107981220657278e-05,
6529
+ "loss": 0.2208,
6530
+ "step": 5390
6531
+ },
6532
+ {
6533
+ "epoch": 6.91,
6534
+ "learning_rate": 2.9093754445867125e-05,
6535
+ "loss": 0.1677,
6536
+ "step": 5395
6537
+ },
6538
+ {
6539
+ "epoch": 6.91,
6540
+ "learning_rate": 2.907952767107697e-05,
6541
+ "loss": 0.1714,
6542
+ "step": 5400
6543
+ },
6544
+ {
6545
+ "epoch": 6.92,
6546
+ "learning_rate": 2.9065300896286813e-05,
6547
+ "loss": 0.1314,
6548
+ "step": 5405
6549
+ },
6550
+ {
6551
+ "epoch": 6.93,
6552
+ "learning_rate": 2.9051074121496657e-05,
6553
+ "loss": 0.1602,
6554
+ "step": 5410
6555
+ },
6556
+ {
6557
+ "epoch": 6.93,
6558
+ "learning_rate": 2.9036847346706504e-05,
6559
+ "loss": 0.1298,
6560
+ "step": 5415
6561
+ },
6562
+ {
6563
+ "epoch": 6.94,
6564
+ "learning_rate": 2.9022620571916348e-05,
6565
+ "loss": 0.1928,
6566
+ "step": 5420
6567
+ },
6568
+ {
6569
+ "epoch": 6.95,
6570
+ "learning_rate": 2.9008393797126192e-05,
6571
+ "loss": 0.2219,
6572
+ "step": 5425
6573
+ },
6574
+ {
6575
+ "epoch": 6.95,
6576
+ "learning_rate": 2.899416702233604e-05,
6577
+ "loss": 0.141,
6578
+ "step": 5430
6579
+ },
6580
+ {
6581
+ "epoch": 6.96,
6582
+ "learning_rate": 2.8979940247545887e-05,
6583
+ "loss": 0.1183,
6584
+ "step": 5435
6585
+ },
6586
+ {
6587
+ "epoch": 6.97,
6588
+ "learning_rate": 2.8965713472755727e-05,
6589
+ "loss": 0.1559,
6590
+ "step": 5440
6591
+ },
6592
+ {
6593
+ "epoch": 6.97,
6594
+ "learning_rate": 2.8951486697965574e-05,
6595
+ "loss": 0.1167,
6596
+ "step": 5445
6597
+ },
6598
+ {
6599
+ "epoch": 6.98,
6600
+ "learning_rate": 2.893725992317542e-05,
6601
+ "loss": 0.129,
6602
+ "step": 5450
6603
+ },
6604
+ {
6605
+ "epoch": 6.98,
6606
+ "learning_rate": 2.8923033148385262e-05,
6607
+ "loss": 0.1713,
6608
+ "step": 5455
6609
+ },
6610
+ {
6611
+ "epoch": 6.99,
6612
+ "learning_rate": 2.890880637359511e-05,
6613
+ "loss": 0.1204,
6614
+ "step": 5460
6615
+ },
6616
+ {
6617
+ "epoch": 7.0,
6618
+ "learning_rate": 2.8894579598804953e-05,
6619
+ "loss": 0.1419,
6620
+ "step": 5465
6621
+ },
6622
+ {
6623
+ "epoch": 7.0,
6624
+ "eval_accuracy": 0.8642,
6625
+ "eval_loss": 0.490004301071167,
6626
+ "eval_runtime": 59.9772,
6627
+ "eval_samples_per_second": 166.73,
6628
+ "eval_steps_per_second": 10.421,
6629
+ "step": 5467
6630
+ },
6631
+ {
6632
+ "epoch": 7.0,
6633
+ "learning_rate": 2.8880352824014797e-05,
6634
+ "loss": 0.1436,
6635
+ "step": 5470
6636
+ },
6637
+ {
6638
+ "epoch": 7.01,
6639
+ "learning_rate": 2.8866126049224645e-05,
6640
+ "loss": 0.0989,
6641
+ "step": 5475
6642
+ },
6643
+ {
6644
+ "epoch": 7.02,
6645
+ "learning_rate": 2.885189927443449e-05,
6646
+ "loss": 0.1386,
6647
+ "step": 5480
6648
+ },
6649
+ {
6650
+ "epoch": 7.02,
6651
+ "learning_rate": 2.8837672499644332e-05,
6652
+ "loss": 0.1292,
6653
+ "step": 5485
6654
+ },
6655
+ {
6656
+ "epoch": 7.03,
6657
+ "learning_rate": 2.8823445724854176e-05,
6658
+ "loss": 0.0895,
6659
+ "step": 5490
6660
+ },
6661
+ {
6662
+ "epoch": 7.04,
6663
+ "learning_rate": 2.8809218950064024e-05,
6664
+ "loss": 0.1196,
6665
+ "step": 5495
6666
+ },
6667
+ {
6668
+ "epoch": 7.04,
6669
+ "learning_rate": 2.8794992175273867e-05,
6670
+ "loss": 0.1005,
6671
+ "step": 5500
6672
+ },
6673
+ {
6674
+ "epoch": 7.05,
6675
+ "learning_rate": 2.878076540048371e-05,
6676
+ "loss": 0.1087,
6677
+ "step": 5505
6678
+ },
6679
+ {
6680
+ "epoch": 7.06,
6681
+ "learning_rate": 2.876653862569356e-05,
6682
+ "loss": 0.0914,
6683
+ "step": 5510
6684
+ },
6685
+ {
6686
+ "epoch": 7.06,
6687
+ "learning_rate": 2.87523118509034e-05,
6688
+ "loss": 0.1147,
6689
+ "step": 5515
6690
+ },
6691
+ {
6692
+ "epoch": 7.07,
6693
+ "learning_rate": 2.8738085076113246e-05,
6694
+ "loss": 0.1071,
6695
+ "step": 5520
6696
+ },
6697
+ {
6698
+ "epoch": 7.07,
6699
+ "learning_rate": 2.8723858301323094e-05,
6700
+ "loss": 0.1358,
6701
+ "step": 5525
6702
+ },
6703
+ {
6704
+ "epoch": 7.08,
6705
+ "learning_rate": 2.870963152653294e-05,
6706
+ "loss": 0.09,
6707
+ "step": 5530
6708
+ },
6709
+ {
6710
+ "epoch": 7.09,
6711
+ "learning_rate": 2.869540475174278e-05,
6712
+ "loss": 0.1079,
6713
+ "step": 5535
6714
+ },
6715
+ {
6716
+ "epoch": 7.09,
6717
+ "learning_rate": 2.868117797695263e-05,
6718
+ "loss": 0.0831,
6719
+ "step": 5540
6720
+ },
6721
+ {
6722
+ "epoch": 7.1,
6723
+ "learning_rate": 2.8666951202162473e-05,
6724
+ "loss": 0.097,
6725
+ "step": 5545
6726
+ },
6727
+ {
6728
+ "epoch": 7.11,
6729
+ "learning_rate": 2.8652724427372317e-05,
6730
+ "loss": 0.1185,
6731
+ "step": 5550
6732
+ },
6733
+ {
6734
+ "epoch": 7.11,
6735
+ "learning_rate": 2.8638497652582164e-05,
6736
+ "loss": 0.1015,
6737
+ "step": 5555
6738
+ },
6739
+ {
6740
+ "epoch": 7.12,
6741
+ "learning_rate": 2.8624270877792008e-05,
6742
+ "loss": 0.1327,
6743
+ "step": 5560
6744
+ },
6745
+ {
6746
+ "epoch": 7.13,
6747
+ "learning_rate": 2.8610044103001852e-05,
6748
+ "loss": 0.1123,
6749
+ "step": 5565
6750
+ },
6751
+ {
6752
+ "epoch": 7.13,
6753
+ "learning_rate": 2.8595817328211696e-05,
6754
+ "loss": 0.108,
6755
+ "step": 5570
6756
+ },
6757
+ {
6758
+ "epoch": 7.14,
6759
+ "learning_rate": 2.8581590553421543e-05,
6760
+ "loss": 0.1279,
6761
+ "step": 5575
6762
+ },
6763
+ {
6764
+ "epoch": 7.14,
6765
+ "learning_rate": 2.8567363778631387e-05,
6766
+ "loss": 0.1033,
6767
+ "step": 5580
6768
+ },
6769
+ {
6770
+ "epoch": 7.15,
6771
+ "learning_rate": 2.855313700384123e-05,
6772
+ "loss": 0.0746,
6773
+ "step": 5585
6774
+ },
6775
+ {
6776
+ "epoch": 7.16,
6777
+ "learning_rate": 2.8538910229051078e-05,
6778
+ "loss": 0.0952,
6779
+ "step": 5590
6780
+ },
6781
+ {
6782
+ "epoch": 7.16,
6783
+ "learning_rate": 2.852468345426092e-05,
6784
+ "loss": 0.0975,
6785
+ "step": 5595
6786
+ },
6787
+ {
6788
+ "epoch": 7.17,
6789
+ "learning_rate": 2.8510456679470766e-05,
6790
+ "loss": 0.085,
6791
+ "step": 5600
6792
+ },
6793
+ {
6794
+ "epoch": 7.18,
6795
+ "learning_rate": 2.8496229904680613e-05,
6796
+ "loss": 0.1156,
6797
+ "step": 5605
6798
+ },
6799
+ {
6800
+ "epoch": 7.18,
6801
+ "learning_rate": 2.8482003129890454e-05,
6802
+ "loss": 0.0986,
6803
+ "step": 5610
6804
+ },
6805
+ {
6806
+ "epoch": 7.19,
6807
+ "learning_rate": 2.84677763551003e-05,
6808
+ "loss": 0.2043,
6809
+ "step": 5615
6810
+ },
6811
+ {
6812
+ "epoch": 7.2,
6813
+ "learning_rate": 2.8453549580310148e-05,
6814
+ "loss": 0.1123,
6815
+ "step": 5620
6816
+ },
6817
+ {
6818
+ "epoch": 7.2,
6819
+ "learning_rate": 2.843932280551999e-05,
6820
+ "loss": 0.1262,
6821
+ "step": 5625
6822
+ },
6823
+ {
6824
+ "epoch": 7.21,
6825
+ "learning_rate": 2.8425096030729836e-05,
6826
+ "loss": 0.0971,
6827
+ "step": 5630
6828
+ },
6829
+ {
6830
+ "epoch": 7.22,
6831
+ "learning_rate": 2.841086925593968e-05,
6832
+ "loss": 0.1056,
6833
+ "step": 5635
6834
+ },
6835
+ {
6836
+ "epoch": 7.22,
6837
+ "learning_rate": 2.8396642481149527e-05,
6838
+ "loss": 0.1241,
6839
+ "step": 5640
6840
+ },
6841
+ {
6842
+ "epoch": 7.23,
6843
+ "learning_rate": 2.838241570635937e-05,
6844
+ "loss": 0.0894,
6845
+ "step": 5645
6846
+ },
6847
+ {
6848
+ "epoch": 7.23,
6849
+ "learning_rate": 2.8368188931569215e-05,
6850
+ "loss": 0.0844,
6851
+ "step": 5650
6852
+ },
6853
+ {
6854
+ "epoch": 7.24,
6855
+ "learning_rate": 2.8353962156779062e-05,
6856
+ "loss": 0.1121,
6857
+ "step": 5655
6858
+ },
6859
+ {
6860
+ "epoch": 7.25,
6861
+ "learning_rate": 2.8339735381988903e-05,
6862
+ "loss": 0.1291,
6863
+ "step": 5660
6864
+ },
6865
+ {
6866
+ "epoch": 7.25,
6867
+ "learning_rate": 2.832550860719875e-05,
6868
+ "loss": 0.1287,
6869
+ "step": 5665
6870
+ },
6871
+ {
6872
+ "epoch": 7.26,
6873
+ "learning_rate": 2.8311281832408597e-05,
6874
+ "loss": 0.0948,
6875
+ "step": 5670
6876
+ },
6877
+ {
6878
+ "epoch": 7.27,
6879
+ "learning_rate": 2.8297055057618438e-05,
6880
+ "loss": 0.0957,
6881
+ "step": 5675
6882
+ },
6883
+ {
6884
+ "epoch": 7.27,
6885
+ "learning_rate": 2.8282828282828285e-05,
6886
+ "loss": 0.1279,
6887
+ "step": 5680
6888
+ },
6889
+ {
6890
+ "epoch": 7.28,
6891
+ "learning_rate": 2.8268601508038132e-05,
6892
+ "loss": 0.0871,
6893
+ "step": 5685
6894
+ },
6895
+ {
6896
+ "epoch": 7.29,
6897
+ "learning_rate": 2.8254374733247973e-05,
6898
+ "loss": 0.0998,
6899
+ "step": 5690
6900
+ },
6901
+ {
6902
+ "epoch": 7.29,
6903
+ "learning_rate": 2.824014795845782e-05,
6904
+ "loss": 0.1114,
6905
+ "step": 5695
6906
+ },
6907
+ {
6908
+ "epoch": 7.3,
6909
+ "learning_rate": 2.8225921183667667e-05,
6910
+ "loss": 0.2043,
6911
+ "step": 5700
6912
+ },
6913
+ {
6914
+ "epoch": 7.3,
6915
+ "learning_rate": 2.8211694408877508e-05,
6916
+ "loss": 0.1361,
6917
+ "step": 5705
6918
+ },
6919
+ {
6920
+ "epoch": 7.31,
6921
+ "learning_rate": 2.8197467634087355e-05,
6922
+ "loss": 0.1129,
6923
+ "step": 5710
6924
+ },
6925
+ {
6926
+ "epoch": 7.32,
6927
+ "learning_rate": 2.81832408592972e-05,
6928
+ "loss": 0.1198,
6929
+ "step": 5715
6930
+ },
6931
+ {
6932
+ "epoch": 7.32,
6933
+ "learning_rate": 2.8169014084507043e-05,
6934
+ "loss": 0.0771,
6935
+ "step": 5720
6936
+ },
6937
+ {
6938
+ "epoch": 7.33,
6939
+ "learning_rate": 2.815478730971689e-05,
6940
+ "loss": 0.0767,
6941
+ "step": 5725
6942
+ },
6943
+ {
6944
+ "epoch": 7.34,
6945
+ "learning_rate": 2.8140560534926734e-05,
6946
+ "loss": 0.1241,
6947
+ "step": 5730
6948
+ },
6949
+ {
6950
+ "epoch": 7.34,
6951
+ "learning_rate": 2.8126333760136578e-05,
6952
+ "loss": 0.1501,
6953
+ "step": 5735
6954
+ },
6955
+ {
6956
+ "epoch": 7.35,
6957
+ "learning_rate": 2.8112106985346422e-05,
6958
+ "loss": 0.1063,
6959
+ "step": 5740
6960
+ },
6961
+ {
6962
+ "epoch": 7.36,
6963
+ "learning_rate": 2.809788021055627e-05,
6964
+ "loss": 0.0859,
6965
+ "step": 5745
6966
+ },
6967
+ {
6968
+ "epoch": 7.36,
6969
+ "learning_rate": 2.8083653435766117e-05,
6970
+ "loss": 0.0773,
6971
+ "step": 5750
6972
+ },
6973
+ {
6974
+ "epoch": 7.37,
6975
+ "learning_rate": 2.8069426660975957e-05,
6976
+ "loss": 0.1341,
6977
+ "step": 5755
6978
+ },
6979
+ {
6980
+ "epoch": 7.38,
6981
+ "learning_rate": 2.8055199886185804e-05,
6982
+ "loss": 0.1036,
6983
+ "step": 5760
6984
+ },
6985
+ {
6986
+ "epoch": 7.38,
6987
+ "learning_rate": 2.8040973111395652e-05,
6988
+ "loss": 0.0864,
6989
+ "step": 5765
6990
+ },
6991
+ {
6992
+ "epoch": 7.39,
6993
+ "learning_rate": 2.8026746336605492e-05,
6994
+ "loss": 0.14,
6995
+ "step": 5770
6996
+ },
6997
+ {
6998
+ "epoch": 7.39,
6999
+ "learning_rate": 2.801251956181534e-05,
7000
+ "loss": 0.069,
7001
+ "step": 5775
7002
+ },
7003
+ {
7004
+ "epoch": 7.4,
7005
+ "learning_rate": 2.7998292787025187e-05,
7006
+ "loss": 0.1248,
7007
+ "step": 5780
7008
+ },
7009
+ {
7010
+ "epoch": 7.41,
7011
+ "learning_rate": 2.7984066012235027e-05,
7012
+ "loss": 0.1395,
7013
+ "step": 5785
7014
+ },
7015
+ {
7016
+ "epoch": 7.41,
7017
+ "learning_rate": 2.7969839237444875e-05,
7018
+ "loss": 0.1216,
7019
+ "step": 5790
7020
+ },
7021
+ {
7022
+ "epoch": 7.42,
7023
+ "learning_rate": 2.795561246265472e-05,
7024
+ "loss": 0.1188,
7025
+ "step": 5795
7026
+ },
7027
+ {
7028
+ "epoch": 7.43,
7029
+ "learning_rate": 2.7941385687864562e-05,
7030
+ "loss": 0.1534,
7031
+ "step": 5800
7032
+ },
7033
+ {
7034
+ "epoch": 7.43,
7035
+ "learning_rate": 2.792715891307441e-05,
7036
+ "loss": 0.1341,
7037
+ "step": 5805
7038
+ },
7039
+ {
7040
+ "epoch": 7.44,
7041
+ "learning_rate": 2.7912932138284254e-05,
7042
+ "loss": 0.093,
7043
+ "step": 5810
7044
+ },
7045
+ {
7046
+ "epoch": 7.45,
7047
+ "learning_rate": 2.7898705363494097e-05,
7048
+ "loss": 0.1099,
7049
+ "step": 5815
7050
+ },
7051
+ {
7052
+ "epoch": 7.45,
7053
+ "learning_rate": 2.788447858870394e-05,
7054
+ "loss": 0.1631,
7055
+ "step": 5820
7056
+ },
7057
+ {
7058
+ "epoch": 7.46,
7059
+ "learning_rate": 2.787025181391379e-05,
7060
+ "loss": 0.0992,
7061
+ "step": 5825
7062
+ },
7063
+ {
7064
+ "epoch": 7.46,
7065
+ "learning_rate": 2.785602503912363e-05,
7066
+ "loss": 0.1339,
7067
+ "step": 5830
7068
+ },
7069
+ {
7070
+ "epoch": 7.47,
7071
+ "learning_rate": 2.7841798264333476e-05,
7072
+ "loss": 0.0857,
7073
+ "step": 5835
7074
+ },
7075
+ {
7076
+ "epoch": 7.48,
7077
+ "learning_rate": 2.7827571489543324e-05,
7078
+ "loss": 0.1258,
7079
+ "step": 5840
7080
+ },
7081
+ {
7082
+ "epoch": 7.48,
7083
+ "learning_rate": 2.781334471475317e-05,
7084
+ "loss": 0.1297,
7085
+ "step": 5845
7086
+ },
7087
+ {
7088
+ "epoch": 7.49,
7089
+ "learning_rate": 2.779911793996301e-05,
7090
+ "loss": 0.0738,
7091
+ "step": 5850
7092
+ },
7093
+ {
7094
+ "epoch": 7.5,
7095
+ "learning_rate": 2.778489116517286e-05,
7096
+ "loss": 0.1067,
7097
+ "step": 5855
7098
+ },
7099
+ {
7100
+ "epoch": 7.5,
7101
+ "learning_rate": 2.7770664390382706e-05,
7102
+ "loss": 0.1489,
7103
+ "step": 5860
7104
+ },
7105
+ {
7106
+ "epoch": 7.51,
7107
+ "learning_rate": 2.7756437615592547e-05,
7108
+ "loss": 0.1238,
7109
+ "step": 5865
7110
+ },
7111
+ {
7112
+ "epoch": 7.52,
7113
+ "learning_rate": 2.7742210840802394e-05,
7114
+ "loss": 0.1042,
7115
+ "step": 5870
7116
+ },
7117
+ {
7118
+ "epoch": 7.52,
7119
+ "learning_rate": 2.7727984066012238e-05,
7120
+ "loss": 0.1127,
7121
+ "step": 5875
7122
+ },
7123
+ {
7124
+ "epoch": 7.53,
7125
+ "learning_rate": 2.7713757291222082e-05,
7126
+ "loss": 0.1076,
7127
+ "step": 5880
7128
+ },
7129
+ {
7130
+ "epoch": 7.54,
7131
+ "learning_rate": 2.7699530516431926e-05,
7132
+ "loss": 0.1292,
7133
+ "step": 5885
7134
+ },
7135
+ {
7136
+ "epoch": 7.54,
7137
+ "learning_rate": 2.7685303741641773e-05,
7138
+ "loss": 0.1058,
7139
+ "step": 5890
7140
+ },
7141
+ {
7142
+ "epoch": 7.55,
7143
+ "learning_rate": 2.7671076966851617e-05,
7144
+ "loss": 0.0919,
7145
+ "step": 5895
7146
+ },
7147
+ {
7148
+ "epoch": 7.55,
7149
+ "learning_rate": 2.765685019206146e-05,
7150
+ "loss": 0.1429,
7151
+ "step": 5900
7152
+ },
7153
+ {
7154
+ "epoch": 7.56,
7155
+ "learning_rate": 2.7642623417271308e-05,
7156
+ "loss": 0.106,
7157
+ "step": 5905
7158
+ },
7159
+ {
7160
+ "epoch": 7.57,
7161
+ "learning_rate": 2.762839664248115e-05,
7162
+ "loss": 0.086,
7163
+ "step": 5910
7164
+ },
7165
+ {
7166
+ "epoch": 7.57,
7167
+ "learning_rate": 2.7614169867690996e-05,
7168
+ "loss": 0.1095,
7169
+ "step": 5915
7170
+ },
7171
+ {
7172
+ "epoch": 7.58,
7173
+ "learning_rate": 2.7599943092900843e-05,
7174
+ "loss": 0.1004,
7175
+ "step": 5920
7176
+ },
7177
+ {
7178
+ "epoch": 7.59,
7179
+ "learning_rate": 2.7585716318110684e-05,
7180
+ "loss": 0.1113,
7181
+ "step": 5925
7182
+ },
7183
+ {
7184
+ "epoch": 7.59,
7185
+ "learning_rate": 2.757148954332053e-05,
7186
+ "loss": 0.1335,
7187
+ "step": 5930
7188
+ },
7189
+ {
7190
+ "epoch": 7.6,
7191
+ "learning_rate": 2.7557262768530378e-05,
7192
+ "loss": 0.0664,
7193
+ "step": 5935
7194
+ },
7195
+ {
7196
+ "epoch": 7.61,
7197
+ "learning_rate": 2.754303599374022e-05,
7198
+ "loss": 0.1322,
7199
+ "step": 5940
7200
+ },
7201
+ {
7202
+ "epoch": 7.61,
7203
+ "learning_rate": 2.7528809218950066e-05,
7204
+ "loss": 0.0609,
7205
+ "step": 5945
7206
+ },
7207
+ {
7208
+ "epoch": 7.62,
7209
+ "learning_rate": 2.7514582444159913e-05,
7210
+ "loss": 0.1927,
7211
+ "step": 5950
7212
+ },
7213
+ {
7214
+ "epoch": 7.62,
7215
+ "learning_rate": 2.7500355669369757e-05,
7216
+ "loss": 0.0889,
7217
+ "step": 5955
7218
+ },
7219
+ {
7220
+ "epoch": 7.63,
7221
+ "learning_rate": 2.74861288945796e-05,
7222
+ "loss": 0.1464,
7223
+ "step": 5960
7224
+ },
7225
+ {
7226
+ "epoch": 7.64,
7227
+ "learning_rate": 2.7471902119789445e-05,
7228
+ "loss": 0.1118,
7229
+ "step": 5965
7230
+ },
7231
+ {
7232
+ "epoch": 7.64,
7233
+ "learning_rate": 2.7457675344999292e-05,
7234
+ "loss": 0.0954,
7235
+ "step": 5970
7236
+ },
7237
+ {
7238
+ "epoch": 7.65,
7239
+ "learning_rate": 2.7443448570209136e-05,
7240
+ "loss": 0.1134,
7241
+ "step": 5975
7242
+ },
7243
+ {
7244
+ "epoch": 7.66,
7245
+ "learning_rate": 2.742922179541898e-05,
7246
+ "loss": 0.0965,
7247
+ "step": 5980
7248
+ },
7249
+ {
7250
+ "epoch": 7.66,
7251
+ "learning_rate": 2.7414995020628827e-05,
7252
+ "loss": 0.1133,
7253
+ "step": 5985
7254
+ },
7255
+ {
7256
+ "epoch": 7.67,
7257
+ "learning_rate": 2.7400768245838668e-05,
7258
+ "loss": 0.1118,
7259
+ "step": 5990
7260
+ },
7261
+ {
7262
+ "epoch": 7.68,
7263
+ "learning_rate": 2.7386541471048515e-05,
7264
+ "loss": 0.1065,
7265
+ "step": 5995
7266
+ },
7267
+ {
7268
+ "epoch": 7.68,
7269
+ "learning_rate": 2.7372314696258362e-05,
7270
+ "loss": 0.1189,
7271
+ "step": 6000
7272
+ },
7273
+ {
7274
+ "epoch": 7.69,
7275
+ "learning_rate": 2.7358087921468203e-05,
7276
+ "loss": 0.104,
7277
+ "step": 6005
7278
+ },
7279
+ {
7280
+ "epoch": 7.7,
7281
+ "learning_rate": 2.734386114667805e-05,
7282
+ "loss": 0.1,
7283
+ "step": 6010
7284
+ },
7285
+ {
7286
+ "epoch": 7.7,
7287
+ "learning_rate": 2.7329634371887898e-05,
7288
+ "loss": 0.1041,
7289
+ "step": 6015
7290
+ },
7291
+ {
7292
+ "epoch": 7.71,
7293
+ "learning_rate": 2.7315407597097738e-05,
7294
+ "loss": 0.139,
7295
+ "step": 6020
7296
+ },
7297
+ {
7298
+ "epoch": 7.71,
7299
+ "learning_rate": 2.7301180822307585e-05,
7300
+ "loss": 0.0824,
7301
+ "step": 6025
7302
+ },
7303
+ {
7304
+ "epoch": 7.72,
7305
+ "learning_rate": 2.7286954047517433e-05,
7306
+ "loss": 0.1583,
7307
+ "step": 6030
7308
+ },
7309
+ {
7310
+ "epoch": 7.73,
7311
+ "learning_rate": 2.7272727272727273e-05,
7312
+ "loss": 0.1049,
7313
+ "step": 6035
7314
+ },
7315
+ {
7316
+ "epoch": 7.73,
7317
+ "learning_rate": 2.725850049793712e-05,
7318
+ "loss": 0.18,
7319
+ "step": 6040
7320
+ },
7321
+ {
7322
+ "epoch": 7.74,
7323
+ "learning_rate": 2.7244273723146964e-05,
7324
+ "loss": 0.1121,
7325
+ "step": 6045
7326
+ },
7327
+ {
7328
+ "epoch": 7.75,
7329
+ "learning_rate": 2.723004694835681e-05,
7330
+ "loss": 0.0981,
7331
+ "step": 6050
7332
+ },
7333
+ {
7334
+ "epoch": 7.75,
7335
+ "learning_rate": 2.7215820173566655e-05,
7336
+ "loss": 0.1083,
7337
+ "step": 6055
7338
+ },
7339
+ {
7340
+ "epoch": 7.76,
7341
+ "learning_rate": 2.72015933987765e-05,
7342
+ "loss": 0.1267,
7343
+ "step": 6060
7344
+ },
7345
+ {
7346
+ "epoch": 7.77,
7347
+ "learning_rate": 2.7187366623986347e-05,
7348
+ "loss": 0.1045,
7349
+ "step": 6065
7350
+ },
7351
+ {
7352
+ "epoch": 7.77,
7353
+ "learning_rate": 2.7173139849196187e-05,
7354
+ "loss": 0.1824,
7355
+ "step": 6070
7356
+ },
7357
+ {
7358
+ "epoch": 7.78,
7359
+ "learning_rate": 2.7158913074406034e-05,
7360
+ "loss": 0.1479,
7361
+ "step": 6075
7362
+ },
7363
+ {
7364
+ "epoch": 7.78,
7365
+ "learning_rate": 2.7144686299615882e-05,
7366
+ "loss": 0.1746,
7367
+ "step": 6080
7368
+ },
7369
+ {
7370
+ "epoch": 7.79,
7371
+ "learning_rate": 2.7130459524825722e-05,
7372
+ "loss": 0.1604,
7373
+ "step": 6085
7374
+ },
7375
+ {
7376
+ "epoch": 7.8,
7377
+ "learning_rate": 2.711623275003557e-05,
7378
+ "loss": 0.0781,
7379
+ "step": 6090
7380
+ },
7381
+ {
7382
+ "epoch": 7.8,
7383
+ "learning_rate": 2.7102005975245417e-05,
7384
+ "loss": 0.0829,
7385
+ "step": 6095
7386
+ },
7387
+ {
7388
+ "epoch": 7.81,
7389
+ "learning_rate": 2.7087779200455257e-05,
7390
+ "loss": 0.1885,
7391
+ "step": 6100
7392
+ },
7393
+ {
7394
+ "epoch": 7.82,
7395
+ "learning_rate": 2.7073552425665105e-05,
7396
+ "loss": 0.1002,
7397
+ "step": 6105
7398
+ },
7399
+ {
7400
+ "epoch": 7.82,
7401
+ "learning_rate": 2.705932565087495e-05,
7402
+ "loss": 0.1507,
7403
+ "step": 6110
7404
+ },
7405
+ {
7406
+ "epoch": 7.83,
7407
+ "learning_rate": 2.7045098876084792e-05,
7408
+ "loss": 0.1359,
7409
+ "step": 6115
7410
+ },
7411
+ {
7412
+ "epoch": 7.84,
7413
+ "learning_rate": 2.703087210129464e-05,
7414
+ "loss": 0.119,
7415
+ "step": 6120
7416
+ },
7417
+ {
7418
+ "epoch": 7.84,
7419
+ "learning_rate": 2.7016645326504484e-05,
7420
+ "loss": 0.1012,
7421
+ "step": 6125
7422
+ },
7423
+ {
7424
+ "epoch": 7.85,
7425
+ "learning_rate": 2.7002418551714328e-05,
7426
+ "loss": 0.1272,
7427
+ "step": 6130
7428
+ },
7429
+ {
7430
+ "epoch": 7.86,
7431
+ "learning_rate": 2.698819177692417e-05,
7432
+ "loss": 0.0746,
7433
+ "step": 6135
7434
+ },
7435
+ {
7436
+ "epoch": 7.86,
7437
+ "learning_rate": 2.697396500213402e-05,
7438
+ "loss": 0.1057,
7439
+ "step": 6140
7440
+ },
7441
+ {
7442
+ "epoch": 7.87,
7443
+ "learning_rate": 2.6959738227343863e-05,
7444
+ "loss": 0.0748,
7445
+ "step": 6145
7446
+ },
7447
+ {
7448
+ "epoch": 7.87,
7449
+ "learning_rate": 2.6945511452553707e-05,
7450
+ "loss": 0.0647,
7451
+ "step": 6150
7452
+ },
7453
+ {
7454
+ "epoch": 7.88,
7455
+ "learning_rate": 2.6931284677763554e-05,
7456
+ "loss": 0.1712,
7457
+ "step": 6155
7458
+ },
7459
+ {
7460
+ "epoch": 7.89,
7461
+ "learning_rate": 2.69170579029734e-05,
7462
+ "loss": 0.1391,
7463
+ "step": 6160
7464
+ },
7465
+ {
7466
+ "epoch": 7.89,
7467
+ "learning_rate": 2.690283112818324e-05,
7468
+ "loss": 0.1111,
7469
+ "step": 6165
7470
+ },
7471
+ {
7472
+ "epoch": 7.9,
7473
+ "learning_rate": 2.688860435339309e-05,
7474
+ "loss": 0.0622,
7475
+ "step": 6170
7476
+ },
7477
+ {
7478
+ "epoch": 7.91,
7479
+ "learning_rate": 2.6874377578602936e-05,
7480
+ "loss": 0.1563,
7481
+ "step": 6175
7482
+ },
7483
+ {
7484
+ "epoch": 7.91,
7485
+ "learning_rate": 2.6860150803812777e-05,
7486
+ "loss": 0.1771,
7487
+ "step": 6180
7488
+ },
7489
+ {
7490
+ "epoch": 7.92,
7491
+ "learning_rate": 2.6845924029022624e-05,
7492
+ "loss": 0.1229,
7493
+ "step": 6185
7494
+ },
7495
+ {
7496
+ "epoch": 7.93,
7497
+ "learning_rate": 2.6831697254232468e-05,
7498
+ "loss": 0.1404,
7499
+ "step": 6190
7500
+ },
7501
+ {
7502
+ "epoch": 7.93,
7503
+ "learning_rate": 2.6817470479442312e-05,
7504
+ "loss": 0.1076,
7505
+ "step": 6195
7506
+ },
7507
+ {
7508
+ "epoch": 7.94,
7509
+ "learning_rate": 2.680324370465216e-05,
7510
+ "loss": 0.1175,
7511
+ "step": 6200
7512
+ },
7513
+ {
7514
+ "epoch": 7.94,
7515
+ "learning_rate": 2.6789016929862003e-05,
7516
+ "loss": 0.1649,
7517
+ "step": 6205
7518
+ },
7519
+ {
7520
+ "epoch": 7.95,
7521
+ "learning_rate": 2.6774790155071847e-05,
7522
+ "loss": 0.1314,
7523
+ "step": 6210
7524
+ },
7525
+ {
7526
+ "epoch": 7.96,
7527
+ "learning_rate": 2.676056338028169e-05,
7528
+ "loss": 0.1571,
7529
+ "step": 6215
7530
+ },
7531
+ {
7532
+ "epoch": 7.96,
7533
+ "learning_rate": 2.6746336605491538e-05,
7534
+ "loss": 0.1484,
7535
+ "step": 6220
7536
+ },
7537
+ {
7538
+ "epoch": 7.97,
7539
+ "learning_rate": 2.6732109830701382e-05,
7540
+ "loss": 0.1064,
7541
+ "step": 6225
7542
+ },
7543
+ {
7544
+ "epoch": 7.98,
7545
+ "learning_rate": 2.6717883055911226e-05,
7546
+ "loss": 0.0954,
7547
+ "step": 6230
7548
+ },
7549
+ {
7550
+ "epoch": 7.98,
7551
+ "learning_rate": 2.6703656281121073e-05,
7552
+ "loss": 0.0797,
7553
+ "step": 6235
7554
+ },
7555
+ {
7556
+ "epoch": 7.99,
7557
+ "learning_rate": 2.6689429506330914e-05,
7558
+ "loss": 0.142,
7559
+ "step": 6240
7560
+ },
7561
+ {
7562
+ "epoch": 8.0,
7563
+ "learning_rate": 2.667520273154076e-05,
7564
+ "loss": 0.1513,
7565
+ "step": 6245
7566
+ },
7567
+ {
7568
+ "epoch": 8.0,
7569
+ "eval_accuracy": 0.8667,
7570
+ "eval_loss": 0.49564066529273987,
7571
+ "eval_runtime": 60.3762,
7572
+ "eval_samples_per_second": 165.628,
7573
+ "eval_steps_per_second": 10.352,
7574
+ "step": 6248
7575
+ },
7576
+ {
7577
+ "epoch": 8.0,
7578
+ "step": 6248,
7579
+ "total_flos": 9.976400755629687e+18,
7580
+ "train_loss": 0.05874636431585964,
7581
+ "train_runtime": 2017.8469,
7582
+ "train_samples_per_second": 495.578,
7583
+ "train_steps_per_second": 7.741
7584
  }
7585
  ],
7586
+ "max_steps": 15620,
7587
+ "num_train_epochs": 20,
7588
+ "total_flos": 9.976400755629687e+18,
7589
  "trial_name": null,
7590
  "trial_params": null
7591
  }
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fd4fa7a5742bbd6246bbd60ac6ffb547d10f3ccac8955980fa25bd0d41e6549b
3
  size 3311
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:15a4e5d8a601da8dd43edd99b047858d3da32c6b32780a1e59087ddca1fc7092
3
  size 3311