Khaled commited on
Commit
3c65245
·
verified ·
1 Parent(s): b7dc420

Upload folder using huggingface_hub

Browse files
all_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 7.0,
3
+ "eval_f1": 0.9760225669957687,
4
+ "eval_loss": 0.06743501126766205,
5
+ "eval_runtime": 16.9709,
6
+ "eval_samples_per_second": 215.663,
7
+ "eval_steps_per_second": 6.776,
8
+ "total_flos": 2.1045216318570566e+19,
9
+ "train_loss": 0.12371139868869004,
10
+ "train_runtime": 2341.9199,
11
+ "train_samples_per_second": 171.111,
12
+ "train_steps_per_second": 5.347
13
+ }
config.json ADDED
@@ -0,0 +1,49 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "microsoft/resnet-152",
3
+ "architectures": [
4
+ "ResNetForImageClassification"
5
+ ],
6
+ "depths": [
7
+ 3,
8
+ 8,
9
+ 36,
10
+ 3
11
+ ],
12
+ "downsample_in_bottleneck": false,
13
+ "downsample_in_first_stage": false,
14
+ "embedding_size": 64,
15
+ "hidden_act": "relu",
16
+ "hidden_sizes": [
17
+ 256,
18
+ 512,
19
+ 1024,
20
+ 2048
21
+ ],
22
+ "id2label": {
23
+ "0": "benign",
24
+ "1": "malignant"
25
+ },
26
+ "label2id": {
27
+ "benign": 0,
28
+ "malignant": 1
29
+ },
30
+ "layer_type": "bottleneck",
31
+ "model_type": "resnet",
32
+ "num_channels": 3,
33
+ "out_features": [
34
+ "stage4"
35
+ ],
36
+ "out_indices": [
37
+ 4
38
+ ],
39
+ "problem_type": "single_label_classification",
40
+ "stage_names": [
41
+ "stem",
42
+ "stage1",
43
+ "stage2",
44
+ "stage3",
45
+ "stage4"
46
+ ],
47
+ "torch_dtype": "float32",
48
+ "transformers_version": "4.48.2"
49
+ }
eval_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 7.0,
3
+ "eval_f1": 0.9760225669957687,
4
+ "eval_loss": 0.06743501126766205,
5
+ "eval_runtime": 16.9709,
6
+ "eval_samples_per_second": 215.663,
7
+ "eval_steps_per_second": 6.776
8
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e248dadf16886387e947c42b544a5a07efdb7de3faed579f57858ec29b428b8
3
+ size 233321808
preprocessor_config.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "crop_pct": 0.875,
3
+ "do_normalize": true,
4
+ "do_rescale": true,
5
+ "do_resize": true,
6
+ "image_mean": [
7
+ 0.485,
8
+ 0.456,
9
+ 0.406
10
+ ],
11
+ "image_processor_type": "ConvNextImageProcessor",
12
+ "image_std": [
13
+ 0.229,
14
+ 0.224,
15
+ 0.225
16
+ ],
17
+ "resample": 3,
18
+ "rescale_factor": 0.00392156862745098,
19
+ "size": {
20
+ "shortest_edge": 224
21
+ }
22
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 7.0,
3
+ "total_flos": 2.1045216318570566e+19,
4
+ "train_loss": 0.12371139868869004,
5
+ "train_runtime": 2341.9199,
6
+ "train_samples_per_second": 171.111,
7
+ "train_steps_per_second": 5.347
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,1855 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.9760225669957687,
3
+ "best_model_checkpoint": "melanoma-v3\\checkpoint-12523",
4
+ "epoch": 7.0,
5
+ "eval_steps": 500,
6
+ "global_step": 12523,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.027948574622694244,
13
+ "grad_norm": 9.020837783813477,
14
+ "learning_rate": 1.8355945730247407e-05,
15
+ "loss": 0.6846,
16
+ "step": 50
17
+ },
18
+ {
19
+ "epoch": 0.05589714924538849,
20
+ "grad_norm": 15.282539367675781,
21
+ "learning_rate": 3.790901835594573e-05,
22
+ "loss": 0.6027,
23
+ "step": 100
24
+ },
25
+ {
26
+ "epoch": 0.08384572386808273,
27
+ "grad_norm": 17.592166900634766,
28
+ "learning_rate": 5.78611332801277e-05,
29
+ "loss": 0.4504,
30
+ "step": 150
31
+ },
32
+ {
33
+ "epoch": 0.11179429849077697,
34
+ "grad_norm": 11.997602462768555,
35
+ "learning_rate": 7.781324820430965e-05,
36
+ "loss": 0.3523,
37
+ "step": 200
38
+ },
39
+ {
40
+ "epoch": 0.13974287311347122,
41
+ "grad_norm": 16.85348129272461,
42
+ "learning_rate": 9.776536312849161e-05,
43
+ "loss": 0.2612,
44
+ "step": 250
45
+ },
46
+ {
47
+ "epoch": 0.16769144773616546,
48
+ "grad_norm": 5.394933700561523,
49
+ "learning_rate": 0.00011771747805267359,
50
+ "loss": 0.2493,
51
+ "step": 300
52
+ },
53
+ {
54
+ "epoch": 0.1956400223588597,
55
+ "grad_norm": 15.290493965148926,
56
+ "learning_rate": 0.00013766959297685554,
57
+ "loss": 0.2092,
58
+ "step": 350
59
+ },
60
+ {
61
+ "epoch": 0.22358859698155395,
62
+ "grad_norm": 15.310522079467773,
63
+ "learning_rate": 0.00015762170790103753,
64
+ "loss": 0.1995,
65
+ "step": 400
66
+ },
67
+ {
68
+ "epoch": 0.2515371716042482,
69
+ "grad_norm": 20.243497848510742,
70
+ "learning_rate": 0.00017757382282521946,
71
+ "loss": 0.2205,
72
+ "step": 450
73
+ },
74
+ {
75
+ "epoch": 0.27948574622694244,
76
+ "grad_norm": 5.062504291534424,
77
+ "learning_rate": 0.00019752593774940145,
78
+ "loss": 0.2124,
79
+ "step": 500
80
+ },
81
+ {
82
+ "epoch": 0.3074343208496367,
83
+ "grad_norm": 5.295910358428955,
84
+ "learning_rate": 0.00021747805267358338,
85
+ "loss": 0.2178,
86
+ "step": 550
87
+ },
88
+ {
89
+ "epoch": 0.3353828954723309,
90
+ "grad_norm": 1.7261399030685425,
91
+ "learning_rate": 0.00023743016759776537,
92
+ "loss": 0.1946,
93
+ "step": 600
94
+ },
95
+ {
96
+ "epoch": 0.36333147009502514,
97
+ "grad_norm": 5.8339338302612305,
98
+ "learning_rate": 0.00025738228252194736,
99
+ "loss": 0.2097,
100
+ "step": 650
101
+ },
102
+ {
103
+ "epoch": 0.3912800447177194,
104
+ "grad_norm": 2.142676830291748,
105
+ "learning_rate": 0.0002773343974461293,
106
+ "loss": 0.2165,
107
+ "step": 700
108
+ },
109
+ {
110
+ "epoch": 0.41922861934041367,
111
+ "grad_norm": 2.970517873764038,
112
+ "learning_rate": 0.00029728651237031123,
113
+ "loss": 0.2051,
114
+ "step": 750
115
+ },
116
+ {
117
+ "epoch": 0.4471771939631079,
118
+ "grad_norm": 4.551942348480225,
119
+ "learning_rate": 0.0003172386272944932,
120
+ "loss": 0.2288,
121
+ "step": 800
122
+ },
123
+ {
124
+ "epoch": 0.47512576858580213,
125
+ "grad_norm": 5.390867710113525,
126
+ "learning_rate": 0.0003371907422186752,
127
+ "loss": 0.2091,
128
+ "step": 850
129
+ },
130
+ {
131
+ "epoch": 0.5030743432084964,
132
+ "grad_norm": 1.3094195127487183,
133
+ "learning_rate": 0.00035714285714285714,
134
+ "loss": 0.2302,
135
+ "step": 900
136
+ },
137
+ {
138
+ "epoch": 0.5310229178311906,
139
+ "grad_norm": 2.8628153800964355,
140
+ "learning_rate": 0.00037709497206703913,
141
+ "loss": 0.2244,
142
+ "step": 950
143
+ },
144
+ {
145
+ "epoch": 0.5589714924538849,
146
+ "grad_norm": 2.0258989334106445,
147
+ "learning_rate": 0.00039704708699122107,
148
+ "loss": 0.1956,
149
+ "step": 1000
150
+ },
151
+ {
152
+ "epoch": 0.5869200670765791,
153
+ "grad_norm": 2.2154078483581543,
154
+ "learning_rate": 0.000416999201915403,
155
+ "loss": 0.2345,
156
+ "step": 1050
157
+ },
158
+ {
159
+ "epoch": 0.6148686416992734,
160
+ "grad_norm": 1.6475298404693604,
161
+ "learning_rate": 0.000436951316839585,
162
+ "loss": 0.2137,
163
+ "step": 1100
164
+ },
165
+ {
166
+ "epoch": 0.6428172163219675,
167
+ "grad_norm": 2.1503453254699707,
168
+ "learning_rate": 0.000456903431763767,
169
+ "loss": 0.2324,
170
+ "step": 1150
171
+ },
172
+ {
173
+ "epoch": 0.6707657909446618,
174
+ "grad_norm": 1.5340570211410522,
175
+ "learning_rate": 0.00047685554668794897,
176
+ "loss": 0.2288,
177
+ "step": 1200
178
+ },
179
+ {
180
+ "epoch": 0.6987143655673561,
181
+ "grad_norm": 2.333324432373047,
182
+ "learning_rate": 0.0004968076616121309,
183
+ "loss": 0.2061,
184
+ "step": 1250
185
+ },
186
+ {
187
+ "epoch": 0.7266629401900503,
188
+ "grad_norm": 1.712575912475586,
189
+ "learning_rate": 0.000498136645962733,
190
+ "loss": 0.2189,
191
+ "step": 1300
192
+ },
193
+ {
194
+ "epoch": 0.7546115148127446,
195
+ "grad_norm": 1.3168742656707764,
196
+ "learning_rate": 0.0004959183673469388,
197
+ "loss": 0.1978,
198
+ "step": 1350
199
+ },
200
+ {
201
+ "epoch": 0.7825600894354388,
202
+ "grad_norm": 4.792356967926025,
203
+ "learning_rate": 0.0004937000887311446,
204
+ "loss": 0.2333,
205
+ "step": 1400
206
+ },
207
+ {
208
+ "epoch": 0.810508664058133,
209
+ "grad_norm": 1.0282349586486816,
210
+ "learning_rate": 0.0004914818101153504,
211
+ "loss": 0.23,
212
+ "step": 1450
213
+ },
214
+ {
215
+ "epoch": 0.8384572386808273,
216
+ "grad_norm": 0.6257219910621643,
217
+ "learning_rate": 0.0004892635314995564,
218
+ "loss": 0.2082,
219
+ "step": 1500
220
+ },
221
+ {
222
+ "epoch": 0.8664058133035215,
223
+ "grad_norm": 1.1651033163070679,
224
+ "learning_rate": 0.00048704525288376224,
225
+ "loss": 0.1976,
226
+ "step": 1550
227
+ },
228
+ {
229
+ "epoch": 0.8943543879262158,
230
+ "grad_norm": 1.0239338874816895,
231
+ "learning_rate": 0.00048482697426796806,
232
+ "loss": 0.1945,
233
+ "step": 1600
234
+ },
235
+ {
236
+ "epoch": 0.92230296254891,
237
+ "grad_norm": 1.616534948348999,
238
+ "learning_rate": 0.0004826086956521739,
239
+ "loss": 0.1801,
240
+ "step": 1650
241
+ },
242
+ {
243
+ "epoch": 0.9502515371716043,
244
+ "grad_norm": 1.4642572402954102,
245
+ "learning_rate": 0.00048039041703637974,
246
+ "loss": 0.1888,
247
+ "step": 1700
248
+ },
249
+ {
250
+ "epoch": 0.9782001117942984,
251
+ "grad_norm": 5.763888359069824,
252
+ "learning_rate": 0.00047817213842058566,
253
+ "loss": 0.1798,
254
+ "step": 1750
255
+ },
256
+ {
257
+ "epoch": 1.0,
258
+ "eval_f1": 0.8859060402684564,
259
+ "eval_loss": 0.2657495439052582,
260
+ "eval_runtime": 17.3445,
261
+ "eval_samples_per_second": 211.017,
262
+ "eval_steps_per_second": 6.63,
263
+ "step": 1789
264
+ },
265
+ {
266
+ "epoch": 1.0061486864169928,
267
+ "grad_norm": 0.4531048536300659,
268
+ "learning_rate": 0.0004759538598047915,
269
+ "loss": 0.1844,
270
+ "step": 1800
271
+ },
272
+ {
273
+ "epoch": 1.034097261039687,
274
+ "grad_norm": 1.737192153930664,
275
+ "learning_rate": 0.00047373558118899735,
276
+ "loss": 0.2026,
277
+ "step": 1850
278
+ },
279
+ {
280
+ "epoch": 1.0620458356623812,
281
+ "grad_norm": 1.7833003997802734,
282
+ "learning_rate": 0.00047151730257320317,
283
+ "loss": 0.1724,
284
+ "step": 1900
285
+ },
286
+ {
287
+ "epoch": 1.0899944102850754,
288
+ "grad_norm": 1.5082063674926758,
289
+ "learning_rate": 0.0004692990239574091,
290
+ "loss": 0.1891,
291
+ "step": 1950
292
+ },
293
+ {
294
+ "epoch": 1.1179429849077698,
295
+ "grad_norm": 1.3961833715438843,
296
+ "learning_rate": 0.00046708074534161496,
297
+ "loss": 0.1737,
298
+ "step": 2000
299
+ },
300
+ {
301
+ "epoch": 1.145891559530464,
302
+ "grad_norm": 0.9128915667533875,
303
+ "learning_rate": 0.0004648624667258208,
304
+ "loss": 0.1584,
305
+ "step": 2050
306
+ },
307
+ {
308
+ "epoch": 1.1738401341531581,
309
+ "grad_norm": 1.8712306022644043,
310
+ "learning_rate": 0.00046264418811002664,
311
+ "loss": 0.1765,
312
+ "step": 2100
313
+ },
314
+ {
315
+ "epoch": 1.2017887087758523,
316
+ "grad_norm": 1.0604172945022583,
317
+ "learning_rate": 0.00046042590949423246,
318
+ "loss": 0.2011,
319
+ "step": 2150
320
+ },
321
+ {
322
+ "epoch": 1.2297372833985467,
323
+ "grad_norm": 2.5036442279815674,
324
+ "learning_rate": 0.0004582076308784384,
325
+ "loss": 0.1873,
326
+ "step": 2200
327
+ },
328
+ {
329
+ "epoch": 1.2576858580212409,
330
+ "grad_norm": 2.0800774097442627,
331
+ "learning_rate": 0.0004559893522626442,
332
+ "loss": 0.1795,
333
+ "step": 2250
334
+ },
335
+ {
336
+ "epoch": 1.2856344326439353,
337
+ "grad_norm": 1.3409812450408936,
338
+ "learning_rate": 0.00045377107364685007,
339
+ "loss": 0.1708,
340
+ "step": 2300
341
+ },
342
+ {
343
+ "epoch": 1.3135830072666295,
344
+ "grad_norm": 1.0831228494644165,
345
+ "learning_rate": 0.0004515527950310559,
346
+ "loss": 0.1738,
347
+ "step": 2350
348
+ },
349
+ {
350
+ "epoch": 1.3415315818893236,
351
+ "grad_norm": 0.5806594491004944,
352
+ "learning_rate": 0.00044933451641526175,
353
+ "loss": 0.1659,
354
+ "step": 2400
355
+ },
356
+ {
357
+ "epoch": 1.3694801565120178,
358
+ "grad_norm": 0.9568463563919067,
359
+ "learning_rate": 0.0004471162377994676,
360
+ "loss": 0.1621,
361
+ "step": 2450
362
+ },
363
+ {
364
+ "epoch": 1.397428731134712,
365
+ "grad_norm": 0.8637075424194336,
366
+ "learning_rate": 0.0004448979591836735,
367
+ "loss": 0.2007,
368
+ "step": 2500
369
+ },
370
+ {
371
+ "epoch": 1.4253773057574064,
372
+ "grad_norm": 1.1704365015029907,
373
+ "learning_rate": 0.0004426796805678793,
374
+ "loss": 0.1556,
375
+ "step": 2550
376
+ },
377
+ {
378
+ "epoch": 1.4533258803801006,
379
+ "grad_norm": 0.8730977773666382,
380
+ "learning_rate": 0.0004404614019520852,
381
+ "loss": 0.1741,
382
+ "step": 2600
383
+ },
384
+ {
385
+ "epoch": 1.481274455002795,
386
+ "grad_norm": 0.7711090445518494,
387
+ "learning_rate": 0.00043824312333629105,
388
+ "loss": 0.1628,
389
+ "step": 2650
390
+ },
391
+ {
392
+ "epoch": 1.5092230296254892,
393
+ "grad_norm": 0.6016321182250977,
394
+ "learning_rate": 0.0004360248447204969,
395
+ "loss": 0.1393,
396
+ "step": 2700
397
+ },
398
+ {
399
+ "epoch": 1.5371716042481833,
400
+ "grad_norm": 0.9047902822494507,
401
+ "learning_rate": 0.00043380656610470273,
402
+ "loss": 0.1607,
403
+ "step": 2750
404
+ },
405
+ {
406
+ "epoch": 1.5651201788708775,
407
+ "grad_norm": 1.0270776748657227,
408
+ "learning_rate": 0.0004315882874889086,
409
+ "loss": 0.1736,
410
+ "step": 2800
411
+ },
412
+ {
413
+ "epoch": 1.5930687534935717,
414
+ "grad_norm": 0.7460580468177795,
415
+ "learning_rate": 0.0004293700088731145,
416
+ "loss": 0.1627,
417
+ "step": 2850
418
+ },
419
+ {
420
+ "epoch": 1.621017328116266,
421
+ "grad_norm": 0.8114007115364075,
422
+ "learning_rate": 0.00042715173025732034,
423
+ "loss": 0.1756,
424
+ "step": 2900
425
+ },
426
+ {
427
+ "epoch": 1.6489659027389603,
428
+ "grad_norm": 0.7761090397834778,
429
+ "learning_rate": 0.0004249334516415262,
430
+ "loss": 0.1491,
431
+ "step": 2950
432
+ },
433
+ {
434
+ "epoch": 1.6769144773616547,
435
+ "grad_norm": 0.7432196140289307,
436
+ "learning_rate": 0.00042271517302573203,
437
+ "loss": 0.1663,
438
+ "step": 3000
439
+ },
440
+ {
441
+ "epoch": 1.7048630519843488,
442
+ "grad_norm": 0.5656224489212036,
443
+ "learning_rate": 0.0004204968944099379,
444
+ "loss": 0.1808,
445
+ "step": 3050
446
+ },
447
+ {
448
+ "epoch": 1.732811626607043,
449
+ "grad_norm": 1.192177653312683,
450
+ "learning_rate": 0.00041827861579414377,
451
+ "loss": 0.1605,
452
+ "step": 3100
453
+ },
454
+ {
455
+ "epoch": 1.7607602012297372,
456
+ "grad_norm": 0.8815297484397888,
457
+ "learning_rate": 0.00041606033717834964,
458
+ "loss": 0.1595,
459
+ "step": 3150
460
+ },
461
+ {
462
+ "epoch": 1.7887087758524314,
463
+ "grad_norm": 0.7288667559623718,
464
+ "learning_rate": 0.00041384205856255545,
465
+ "loss": 0.1529,
466
+ "step": 3200
467
+ },
468
+ {
469
+ "epoch": 1.8166573504751258,
470
+ "grad_norm": 0.41470789909362793,
471
+ "learning_rate": 0.0004116237799467613,
472
+ "loss": 0.1661,
473
+ "step": 3250
474
+ },
475
+ {
476
+ "epoch": 1.8446059250978202,
477
+ "grad_norm": 0.5929239392280579,
478
+ "learning_rate": 0.00040940550133096714,
479
+ "loss": 0.1658,
480
+ "step": 3300
481
+ },
482
+ {
483
+ "epoch": 1.8725544997205144,
484
+ "grad_norm": 0.5527342557907104,
485
+ "learning_rate": 0.00040718722271517306,
486
+ "loss": 0.1686,
487
+ "step": 3350
488
+ },
489
+ {
490
+ "epoch": 1.9005030743432085,
491
+ "grad_norm": 0.7223379611968994,
492
+ "learning_rate": 0.0004049689440993789,
493
+ "loss": 0.1616,
494
+ "step": 3400
495
+ },
496
+ {
497
+ "epoch": 1.9284516489659027,
498
+ "grad_norm": 1.6212414503097534,
499
+ "learning_rate": 0.00040275066548358475,
500
+ "loss": 0.1455,
501
+ "step": 3450
502
+ },
503
+ {
504
+ "epoch": 1.9564002235885969,
505
+ "grad_norm": 0.5442690849304199,
506
+ "learning_rate": 0.00040053238686779056,
507
+ "loss": 0.1666,
508
+ "step": 3500
509
+ },
510
+ {
511
+ "epoch": 1.984348798211291,
512
+ "grad_norm": 0.4307806193828583,
513
+ "learning_rate": 0.00039831410825199643,
514
+ "loss": 0.1634,
515
+ "step": 3550
516
+ },
517
+ {
518
+ "epoch": 2.0,
519
+ "eval_f1": 0.8839446782922429,
520
+ "eval_loss": 0.26385268568992615,
521
+ "eval_runtime": 15.9608,
522
+ "eval_samples_per_second": 229.312,
523
+ "eval_steps_per_second": 7.205,
524
+ "step": 3578
525
+ },
526
+ {
527
+ "epoch": 2.0122973728339857,
528
+ "grad_norm": 1.0025759935379028,
529
+ "learning_rate": 0.00039609582963620236,
530
+ "loss": 0.16,
531
+ "step": 3600
532
+ },
533
+ {
534
+ "epoch": 2.04024594745668,
535
+ "grad_norm": 0.7586847543716431,
536
+ "learning_rate": 0.00039387755102040817,
537
+ "loss": 0.18,
538
+ "step": 3650
539
+ },
540
+ {
541
+ "epoch": 2.068194522079374,
542
+ "grad_norm": 1.3456194400787354,
543
+ "learning_rate": 0.00039165927240461404,
544
+ "loss": 0.1344,
545
+ "step": 3700
546
+ },
547
+ {
548
+ "epoch": 2.096143096702068,
549
+ "grad_norm": 0.5425747632980347,
550
+ "learning_rate": 0.00038944099378881986,
551
+ "loss": 0.1386,
552
+ "step": 3750
553
+ },
554
+ {
555
+ "epoch": 2.1240916713247624,
556
+ "grad_norm": 0.8643823266029358,
557
+ "learning_rate": 0.0003872227151730258,
558
+ "loss": 0.1609,
559
+ "step": 3800
560
+ },
561
+ {
562
+ "epoch": 2.1520402459474566,
563
+ "grad_norm": 0.6121143698692322,
564
+ "learning_rate": 0.0003850044365572316,
565
+ "loss": 0.1433,
566
+ "step": 3850
567
+ },
568
+ {
569
+ "epoch": 2.1799888205701508,
570
+ "grad_norm": 1.2089327573776245,
571
+ "learning_rate": 0.00038278615794143747,
572
+ "loss": 0.1635,
573
+ "step": 3900
574
+ },
575
+ {
576
+ "epoch": 2.207937395192845,
577
+ "grad_norm": 0.845815122127533,
578
+ "learning_rate": 0.0003805678793256433,
579
+ "loss": 0.1633,
580
+ "step": 3950
581
+ },
582
+ {
583
+ "epoch": 2.2358859698155396,
584
+ "grad_norm": 0.8113688230514526,
585
+ "learning_rate": 0.00037834960070984915,
586
+ "loss": 0.1497,
587
+ "step": 4000
588
+ },
589
+ {
590
+ "epoch": 2.2638345444382337,
591
+ "grad_norm": 1.681497573852539,
592
+ "learning_rate": 0.000376131322094055,
593
+ "loss": 0.1402,
594
+ "step": 4050
595
+ },
596
+ {
597
+ "epoch": 2.291783119060928,
598
+ "grad_norm": 0.9330260157585144,
599
+ "learning_rate": 0.0003739130434782609,
600
+ "loss": 0.1561,
601
+ "step": 4100
602
+ },
603
+ {
604
+ "epoch": 2.319731693683622,
605
+ "grad_norm": 1.3728777170181274,
606
+ "learning_rate": 0.0003716947648624667,
607
+ "loss": 0.1228,
608
+ "step": 4150
609
+ },
610
+ {
611
+ "epoch": 2.3476802683063163,
612
+ "grad_norm": 1.523483395576477,
613
+ "learning_rate": 0.0003694764862466726,
614
+ "loss": 0.1327,
615
+ "step": 4200
616
+ },
617
+ {
618
+ "epoch": 2.3756288429290104,
619
+ "grad_norm": 0.6407974362373352,
620
+ "learning_rate": 0.00036725820763087845,
621
+ "loss": 0.1499,
622
+ "step": 4250
623
+ },
624
+ {
625
+ "epoch": 2.4035774175517046,
626
+ "grad_norm": 0.5848202109336853,
627
+ "learning_rate": 0.0003650399290150843,
628
+ "loss": 0.1082,
629
+ "step": 4300
630
+ },
631
+ {
632
+ "epoch": 2.4315259921743992,
633
+ "grad_norm": 0.21722891926765442,
634
+ "learning_rate": 0.0003628216503992902,
635
+ "loss": 0.1498,
636
+ "step": 4350
637
+ },
638
+ {
639
+ "epoch": 2.4594745667970934,
640
+ "grad_norm": 0.7241097092628479,
641
+ "learning_rate": 0.000360603371783496,
642
+ "loss": 0.1354,
643
+ "step": 4400
644
+ },
645
+ {
646
+ "epoch": 2.4874231414197876,
647
+ "grad_norm": 1.2298479080200195,
648
+ "learning_rate": 0.00035838509316770187,
649
+ "loss": 0.1409,
650
+ "step": 4450
651
+ },
652
+ {
653
+ "epoch": 2.5153717160424818,
654
+ "grad_norm": 0.6272071003913879,
655
+ "learning_rate": 0.00035616681455190774,
656
+ "loss": 0.1358,
657
+ "step": 4500
658
+ },
659
+ {
660
+ "epoch": 2.543320290665176,
661
+ "grad_norm": 0.9323145151138306,
662
+ "learning_rate": 0.0003539485359361136,
663
+ "loss": 0.1316,
664
+ "step": 4550
665
+ },
666
+ {
667
+ "epoch": 2.5712688652878706,
668
+ "grad_norm": 0.44958174228668213,
669
+ "learning_rate": 0.0003517302573203194,
670
+ "loss": 0.1283,
671
+ "step": 4600
672
+ },
673
+ {
674
+ "epoch": 2.5992174399105643,
675
+ "grad_norm": 0.30582261085510254,
676
+ "learning_rate": 0.0003495119787045253,
677
+ "loss": 0.1225,
678
+ "step": 4650
679
+ },
680
+ {
681
+ "epoch": 2.627166014533259,
682
+ "grad_norm": 0.9854662418365479,
683
+ "learning_rate": 0.00034729370008873117,
684
+ "loss": 0.1527,
685
+ "step": 4700
686
+ },
687
+ {
688
+ "epoch": 2.655114589155953,
689
+ "grad_norm": 0.3222338557243347,
690
+ "learning_rate": 0.00034507542147293703,
691
+ "loss": 0.1485,
692
+ "step": 4750
693
+ },
694
+ {
695
+ "epoch": 2.6830631637786473,
696
+ "grad_norm": 0.7984679341316223,
697
+ "learning_rate": 0.00034285714285714285,
698
+ "loss": 0.15,
699
+ "step": 4800
700
+ },
701
+ {
702
+ "epoch": 2.7110117384013415,
703
+ "grad_norm": 0.27581000328063965,
704
+ "learning_rate": 0.0003406388642413487,
705
+ "loss": 0.1423,
706
+ "step": 4850
707
+ },
708
+ {
709
+ "epoch": 2.7389603130240356,
710
+ "grad_norm": 0.36392349004745483,
711
+ "learning_rate": 0.00033842058562555454,
712
+ "loss": 0.12,
713
+ "step": 4900
714
+ },
715
+ {
716
+ "epoch": 2.7669088876467303,
717
+ "grad_norm": 0.8806673884391785,
718
+ "learning_rate": 0.00033620230700976046,
719
+ "loss": 0.1353,
720
+ "step": 4950
721
+ },
722
+ {
723
+ "epoch": 2.794857462269424,
724
+ "grad_norm": 0.4529147446155548,
725
+ "learning_rate": 0.0003339840283939663,
726
+ "loss": 0.1524,
727
+ "step": 5000
728
+ },
729
+ {
730
+ "epoch": 2.8228060368921186,
731
+ "grad_norm": 0.7661668658256531,
732
+ "learning_rate": 0.00033176574977817214,
733
+ "loss": 0.1431,
734
+ "step": 5050
735
+ },
736
+ {
737
+ "epoch": 2.850754611514813,
738
+ "grad_norm": 0.7224089503288269,
739
+ "learning_rate": 0.000329547471162378,
740
+ "loss": 0.1328,
741
+ "step": 5100
742
+ },
743
+ {
744
+ "epoch": 2.878703186137507,
745
+ "grad_norm": 0.7597375512123108,
746
+ "learning_rate": 0.00032732919254658383,
747
+ "loss": 0.1322,
748
+ "step": 5150
749
+ },
750
+ {
751
+ "epoch": 2.906651760760201,
752
+ "grad_norm": 1.273445725440979,
753
+ "learning_rate": 0.00032511091393078975,
754
+ "loss": 0.1234,
755
+ "step": 5200
756
+ },
757
+ {
758
+ "epoch": 2.9346003353828953,
759
+ "grad_norm": 1.428731918334961,
760
+ "learning_rate": 0.00032289263531499557,
761
+ "loss": 0.1476,
762
+ "step": 5250
763
+ },
764
+ {
765
+ "epoch": 2.96254891000559,
766
+ "grad_norm": 0.4086410701274872,
767
+ "learning_rate": 0.00032067435669920144,
768
+ "loss": 0.1288,
769
+ "step": 5300
770
+ },
771
+ {
772
+ "epoch": 2.9904974846282837,
773
+ "grad_norm": 1.4084666967391968,
774
+ "learning_rate": 0.00031845607808340725,
775
+ "loss": 0.1403,
776
+ "step": 5350
777
+ },
778
+ {
779
+ "epoch": 3.0,
780
+ "eval_f1": 0.922771152754117,
781
+ "eval_loss": 0.1881607472896576,
782
+ "eval_runtime": 15.5665,
783
+ "eval_samples_per_second": 235.12,
784
+ "eval_steps_per_second": 7.388,
785
+ "step": 5367
786
+ },
787
+ {
788
+ "epoch": 3.0184460592509783,
789
+ "grad_norm": 1.1583423614501953,
790
+ "learning_rate": 0.0003162377994676132,
791
+ "loss": 0.1348,
792
+ "step": 5400
793
+ },
794
+ {
795
+ "epoch": 3.0463946338736725,
796
+ "grad_norm": 0.5038284063339233,
797
+ "learning_rate": 0.000314019520851819,
798
+ "loss": 0.1332,
799
+ "step": 5450
800
+ },
801
+ {
802
+ "epoch": 3.0743432084963667,
803
+ "grad_norm": 1.139427900314331,
804
+ "learning_rate": 0.00031180124223602486,
805
+ "loss": 0.1071,
806
+ "step": 5500
807
+ },
808
+ {
809
+ "epoch": 3.102291783119061,
810
+ "grad_norm": 0.632847011089325,
811
+ "learning_rate": 0.0003095829636202307,
812
+ "loss": 0.129,
813
+ "step": 5550
814
+ },
815
+ {
816
+ "epoch": 3.130240357741755,
817
+ "grad_norm": 0.9477543830871582,
818
+ "learning_rate": 0.00030736468500443655,
819
+ "loss": 0.1296,
820
+ "step": 5600
821
+ },
822
+ {
823
+ "epoch": 3.1581889323644496,
824
+ "grad_norm": 0.7813945412635803,
825
+ "learning_rate": 0.0003051464063886424,
826
+ "loss": 0.1356,
827
+ "step": 5650
828
+ },
829
+ {
830
+ "epoch": 3.186137506987144,
831
+ "grad_norm": 1.0547813177108765,
832
+ "learning_rate": 0.0003029281277728483,
833
+ "loss": 0.1223,
834
+ "step": 5700
835
+ },
836
+ {
837
+ "epoch": 3.214086081609838,
838
+ "grad_norm": 0.8783809542655945,
839
+ "learning_rate": 0.0003007098491570541,
840
+ "loss": 0.1086,
841
+ "step": 5750
842
+ },
843
+ {
844
+ "epoch": 3.242034656232532,
845
+ "grad_norm": 1.7557278871536255,
846
+ "learning_rate": 0.00029849157054126,
847
+ "loss": 0.1176,
848
+ "step": 5800
849
+ },
850
+ {
851
+ "epoch": 3.2699832308552264,
852
+ "grad_norm": 0.8250858783721924,
853
+ "learning_rate": 0.0002962732919254659,
854
+ "loss": 0.1244,
855
+ "step": 5850
856
+ },
857
+ {
858
+ "epoch": 3.2979318054779205,
859
+ "grad_norm": 0.5830790996551514,
860
+ "learning_rate": 0.0002940550133096717,
861
+ "loss": 0.1255,
862
+ "step": 5900
863
+ },
864
+ {
865
+ "epoch": 3.3258803801006147,
866
+ "grad_norm": 0.39319124817848206,
867
+ "learning_rate": 0.0002918367346938776,
868
+ "loss": 0.1145,
869
+ "step": 5950
870
+ },
871
+ {
872
+ "epoch": 3.3538289547233093,
873
+ "grad_norm": 0.7558562755584717,
874
+ "learning_rate": 0.0002896184560780834,
875
+ "loss": 0.1449,
876
+ "step": 6000
877
+ },
878
+ {
879
+ "epoch": 3.3817775293460035,
880
+ "grad_norm": 0.686841607093811,
881
+ "learning_rate": 0.00028740017746228927,
882
+ "loss": 0.1269,
883
+ "step": 6050
884
+ },
885
+ {
886
+ "epoch": 3.4097261039686977,
887
+ "grad_norm": 0.3600720167160034,
888
+ "learning_rate": 0.00028518189884649514,
889
+ "loss": 0.1095,
890
+ "step": 6100
891
+ },
892
+ {
893
+ "epoch": 3.437674678591392,
894
+ "grad_norm": 0.38374069333076477,
895
+ "learning_rate": 0.000282963620230701,
896
+ "loss": 0.11,
897
+ "step": 6150
898
+ },
899
+ {
900
+ "epoch": 3.465623253214086,
901
+ "grad_norm": 0.736842691898346,
902
+ "learning_rate": 0.0002807453416149068,
903
+ "loss": 0.1099,
904
+ "step": 6200
905
+ },
906
+ {
907
+ "epoch": 3.49357182783678,
908
+ "grad_norm": 0.21129830181598663,
909
+ "learning_rate": 0.0002785270629991127,
910
+ "loss": 0.1291,
911
+ "step": 6250
912
+ },
913
+ {
914
+ "epoch": 3.5215204024594744,
915
+ "grad_norm": 0.6699479222297668,
916
+ "learning_rate": 0.0002763087843833185,
917
+ "loss": 0.1018,
918
+ "step": 6300
919
+ },
920
+ {
921
+ "epoch": 3.549468977082169,
922
+ "grad_norm": 1.1297788619995117,
923
+ "learning_rate": 0.00027409050576752443,
924
+ "loss": 0.0986,
925
+ "step": 6350
926
+ },
927
+ {
928
+ "epoch": 3.577417551704863,
929
+ "grad_norm": 0.7633982300758362,
930
+ "learning_rate": 0.00027187222715173025,
931
+ "loss": 0.1249,
932
+ "step": 6400
933
+ },
934
+ {
935
+ "epoch": 3.6053661263275574,
936
+ "grad_norm": 1.3231158256530762,
937
+ "learning_rate": 0.0002696539485359361,
938
+ "loss": 0.1178,
939
+ "step": 6450
940
+ },
941
+ {
942
+ "epoch": 3.6333147009502516,
943
+ "grad_norm": 0.5314428806304932,
944
+ "learning_rate": 0.00026743566992014193,
945
+ "loss": 0.1094,
946
+ "step": 6500
947
+ },
948
+ {
949
+ "epoch": 3.6612632755729457,
950
+ "grad_norm": 0.3701280355453491,
951
+ "learning_rate": 0.00026521739130434786,
952
+ "loss": 0.12,
953
+ "step": 6550
954
+ },
955
+ {
956
+ "epoch": 3.68921185019564,
957
+ "grad_norm": 0.6473478674888611,
958
+ "learning_rate": 0.00026299911268855367,
959
+ "loss": 0.106,
960
+ "step": 6600
961
+ },
962
+ {
963
+ "epoch": 3.717160424818334,
964
+ "grad_norm": 0.4988769590854645,
965
+ "learning_rate": 0.00026078083407275954,
966
+ "loss": 0.1396,
967
+ "step": 6650
968
+ },
969
+ {
970
+ "epoch": 3.7451089994410287,
971
+ "grad_norm": 1.0782082080841064,
972
+ "learning_rate": 0.0002585625554569654,
973
+ "loss": 0.1144,
974
+ "step": 6700
975
+ },
976
+ {
977
+ "epoch": 3.773057574063723,
978
+ "grad_norm": 0.846603274345398,
979
+ "learning_rate": 0.00025634427684117123,
980
+ "loss": 0.1142,
981
+ "step": 6750
982
+ },
983
+ {
984
+ "epoch": 3.801006148686417,
985
+ "grad_norm": 1.2522852420806885,
986
+ "learning_rate": 0.00025412599822537715,
987
+ "loss": 0.1086,
988
+ "step": 6800
989
+ },
990
+ {
991
+ "epoch": 3.8289547233091112,
992
+ "grad_norm": 0.30715683102607727,
993
+ "learning_rate": 0.00025190771960958297,
994
+ "loss": 0.1023,
995
+ "step": 6850
996
+ },
997
+ {
998
+ "epoch": 3.8569032979318054,
999
+ "grad_norm": 1.1746628284454346,
1000
+ "learning_rate": 0.00024968944099378884,
1001
+ "loss": 0.1182,
1002
+ "step": 6900
1003
+ },
1004
+ {
1005
+ "epoch": 3.8848518725544996,
1006
+ "grad_norm": 2.2346272468566895,
1007
+ "learning_rate": 0.0002474711623779947,
1008
+ "loss": 0.1207,
1009
+ "step": 6950
1010
+ },
1011
+ {
1012
+ "epoch": 3.9128004471771938,
1013
+ "grad_norm": 1.6879889965057373,
1014
+ "learning_rate": 0.0002452528837622005,
1015
+ "loss": 0.101,
1016
+ "step": 7000
1017
+ },
1018
+ {
1019
+ "epoch": 3.9407490217998884,
1020
+ "grad_norm": 0.777055025100708,
1021
+ "learning_rate": 0.00024303460514640642,
1022
+ "loss": 0.1051,
1023
+ "step": 7050
1024
+ },
1025
+ {
1026
+ "epoch": 3.9686975964225826,
1027
+ "grad_norm": 1.065346598625183,
1028
+ "learning_rate": 0.00024081632653061226,
1029
+ "loss": 0.1055,
1030
+ "step": 7100
1031
+ },
1032
+ {
1033
+ "epoch": 3.9966461710452768,
1034
+ "grad_norm": 2.3775737285614014,
1035
+ "learning_rate": 0.0002385980479148181,
1036
+ "loss": 0.097,
1037
+ "step": 7150
1038
+ },
1039
+ {
1040
+ "epoch": 4.0,
1041
+ "eval_f1": 0.9374824782730586,
1042
+ "eval_loss": 0.15188030898571014,
1043
+ "eval_runtime": 15.6619,
1044
+ "eval_samples_per_second": 233.688,
1045
+ "eval_steps_per_second": 7.343,
1046
+ "step": 7156
1047
+ },
1048
+ {
1049
+ "epoch": 4.024594745667971,
1050
+ "grad_norm": 0.8017207980155945,
1051
+ "learning_rate": 0.00023637976929902397,
1052
+ "loss": 0.1102,
1053
+ "step": 7200
1054
+ },
1055
+ {
1056
+ "epoch": 4.052543320290665,
1057
+ "grad_norm": 2.158339023590088,
1058
+ "learning_rate": 0.00023416149068322982,
1059
+ "loss": 0.1033,
1060
+ "step": 7250
1061
+ },
1062
+ {
1063
+ "epoch": 4.08049189491336,
1064
+ "grad_norm": 0.8033800721168518,
1065
+ "learning_rate": 0.00023194321206743569,
1066
+ "loss": 0.1054,
1067
+ "step": 7300
1068
+ },
1069
+ {
1070
+ "epoch": 4.1084404695360535,
1071
+ "grad_norm": 1.1149848699569702,
1072
+ "learning_rate": 0.00022972493345164153,
1073
+ "loss": 0.0884,
1074
+ "step": 7350
1075
+ },
1076
+ {
1077
+ "epoch": 4.136389044158748,
1078
+ "grad_norm": 0.18090881407260895,
1079
+ "learning_rate": 0.0002275066548358474,
1080
+ "loss": 0.091,
1081
+ "step": 7400
1082
+ },
1083
+ {
1084
+ "epoch": 4.164337618781442,
1085
+ "grad_norm": 0.6261000633239746,
1086
+ "learning_rate": 0.00022528837622005324,
1087
+ "loss": 0.0842,
1088
+ "step": 7450
1089
+ },
1090
+ {
1091
+ "epoch": 4.192286193404136,
1092
+ "grad_norm": 0.44622424244880676,
1093
+ "learning_rate": 0.00022307009760425908,
1094
+ "loss": 0.0933,
1095
+ "step": 7500
1096
+ },
1097
+ {
1098
+ "epoch": 4.220234768026831,
1099
+ "grad_norm": 1.2650983333587646,
1100
+ "learning_rate": 0.00022085181898846495,
1101
+ "loss": 0.0982,
1102
+ "step": 7550
1103
+ },
1104
+ {
1105
+ "epoch": 4.248183342649525,
1106
+ "grad_norm": 2.512014150619507,
1107
+ "learning_rate": 0.0002186335403726708,
1108
+ "loss": 0.0959,
1109
+ "step": 7600
1110
+ },
1111
+ {
1112
+ "epoch": 4.276131917272219,
1113
+ "grad_norm": 0.9572253227233887,
1114
+ "learning_rate": 0.00021641526175687667,
1115
+ "loss": 0.1197,
1116
+ "step": 7650
1117
+ },
1118
+ {
1119
+ "epoch": 4.304080491894913,
1120
+ "grad_norm": 0.8612358570098877,
1121
+ "learning_rate": 0.0002141969831410825,
1122
+ "loss": 0.0898,
1123
+ "step": 7700
1124
+ },
1125
+ {
1126
+ "epoch": 4.332029066517608,
1127
+ "grad_norm": 0.13563434779644012,
1128
+ "learning_rate": 0.00021197870452528838,
1129
+ "loss": 0.1268,
1130
+ "step": 7750
1131
+ },
1132
+ {
1133
+ "epoch": 4.3599776411403015,
1134
+ "grad_norm": 0.9207750558853149,
1135
+ "learning_rate": 0.00020976042590949425,
1136
+ "loss": 0.1138,
1137
+ "step": 7800
1138
+ },
1139
+ {
1140
+ "epoch": 4.387926215762996,
1141
+ "grad_norm": 0.15072673559188843,
1142
+ "learning_rate": 0.00020754214729370012,
1143
+ "loss": 0.0854,
1144
+ "step": 7850
1145
+ },
1146
+ {
1147
+ "epoch": 4.41587479038569,
1148
+ "grad_norm": 0.5902436375617981,
1149
+ "learning_rate": 0.00020532386867790596,
1150
+ "loss": 0.0967,
1151
+ "step": 7900
1152
+ },
1153
+ {
1154
+ "epoch": 4.4438233650083845,
1155
+ "grad_norm": 2.2286317348480225,
1156
+ "learning_rate": 0.0002031055900621118,
1157
+ "loss": 0.0939,
1158
+ "step": 7950
1159
+ },
1160
+ {
1161
+ "epoch": 4.471771939631079,
1162
+ "grad_norm": 0.6109320521354675,
1163
+ "learning_rate": 0.00020088731144631767,
1164
+ "loss": 0.0887,
1165
+ "step": 8000
1166
+ },
1167
+ {
1168
+ "epoch": 4.499720514253773,
1169
+ "grad_norm": 1.340773582458496,
1170
+ "learning_rate": 0.00019866903283052352,
1171
+ "loss": 0.0837,
1172
+ "step": 8050
1173
+ },
1174
+ {
1175
+ "epoch": 4.5276690888764675,
1176
+ "grad_norm": 1.1809900999069214,
1177
+ "learning_rate": 0.00019645075421472938,
1178
+ "loss": 0.0765,
1179
+ "step": 8100
1180
+ },
1181
+ {
1182
+ "epoch": 4.555617663499161,
1183
+ "grad_norm": 0.8299195170402527,
1184
+ "learning_rate": 0.00019423247559893523,
1185
+ "loss": 0.0972,
1186
+ "step": 8150
1187
+ },
1188
+ {
1189
+ "epoch": 4.583566238121856,
1190
+ "grad_norm": 0.18145732581615448,
1191
+ "learning_rate": 0.0001920141969831411,
1192
+ "loss": 0.075,
1193
+ "step": 8200
1194
+ },
1195
+ {
1196
+ "epoch": 4.61151481274455,
1197
+ "grad_norm": 0.2446570098400116,
1198
+ "learning_rate": 0.00018979591836734694,
1199
+ "loss": 0.0857,
1200
+ "step": 8250
1201
+ },
1202
+ {
1203
+ "epoch": 4.639463387367244,
1204
+ "grad_norm": 1.534759759902954,
1205
+ "learning_rate": 0.00018757763975155278,
1206
+ "loss": 0.0793,
1207
+ "step": 8300
1208
+ },
1209
+ {
1210
+ "epoch": 4.667411961989939,
1211
+ "grad_norm": 1.6062694787979126,
1212
+ "learning_rate": 0.00018535936113575865,
1213
+ "loss": 0.0931,
1214
+ "step": 8350
1215
+ },
1216
+ {
1217
+ "epoch": 4.6953605366126325,
1218
+ "grad_norm": 2.1251513957977295,
1219
+ "learning_rate": 0.0001831410825199645,
1220
+ "loss": 0.1003,
1221
+ "step": 8400
1222
+ },
1223
+ {
1224
+ "epoch": 4.723309111235327,
1225
+ "grad_norm": 0.9858797788619995,
1226
+ "learning_rate": 0.00018092280390417036,
1227
+ "loss": 0.082,
1228
+ "step": 8450
1229
+ },
1230
+ {
1231
+ "epoch": 4.751257685858021,
1232
+ "grad_norm": 1.1654304265975952,
1233
+ "learning_rate": 0.0001787045252883762,
1234
+ "loss": 0.0603,
1235
+ "step": 8500
1236
+ },
1237
+ {
1238
+ "epoch": 4.7792062604807155,
1239
+ "grad_norm": 1.731586217880249,
1240
+ "learning_rate": 0.00017648624667258208,
1241
+ "loss": 0.0593,
1242
+ "step": 8550
1243
+ },
1244
+ {
1245
+ "epoch": 4.807154835103409,
1246
+ "grad_norm": 0.524991512298584,
1247
+ "learning_rate": 0.00017426796805678795,
1248
+ "loss": 0.0928,
1249
+ "step": 8600
1250
+ },
1251
+ {
1252
+ "epoch": 4.835103409726104,
1253
+ "grad_norm": 0.76012122631073,
1254
+ "learning_rate": 0.00017204968944099382,
1255
+ "loss": 0.0901,
1256
+ "step": 8650
1257
+ },
1258
+ {
1259
+ "epoch": 4.8630519843487985,
1260
+ "grad_norm": 1.038218379020691,
1261
+ "learning_rate": 0.00016983141082519966,
1262
+ "loss": 0.0712,
1263
+ "step": 8700
1264
+ },
1265
+ {
1266
+ "epoch": 4.891000558971492,
1267
+ "grad_norm": 0.7694293260574341,
1268
+ "learning_rate": 0.0001676131322094055,
1269
+ "loss": 0.0801,
1270
+ "step": 8750
1271
+ },
1272
+ {
1273
+ "epoch": 4.918949133594187,
1274
+ "grad_norm": 1.4149705171585083,
1275
+ "learning_rate": 0.00016539485359361137,
1276
+ "loss": 0.1054,
1277
+ "step": 8800
1278
+ },
1279
+ {
1280
+ "epoch": 4.946897708216881,
1281
+ "grad_norm": 0.35135123133659363,
1282
+ "learning_rate": 0.00016317657497781721,
1283
+ "loss": 0.0917,
1284
+ "step": 8850
1285
+ },
1286
+ {
1287
+ "epoch": 4.974846282839575,
1288
+ "grad_norm": 1.8134843111038208,
1289
+ "learning_rate": 0.00016095829636202308,
1290
+ "loss": 0.0946,
1291
+ "step": 8900
1292
+ },
1293
+ {
1294
+ "epoch": 5.0,
1295
+ "eval_f1": 0.9494430162810625,
1296
+ "eval_loss": 0.12213503569364548,
1297
+ "eval_runtime": 16.0206,
1298
+ "eval_samples_per_second": 228.456,
1299
+ "eval_steps_per_second": 7.178,
1300
+ "step": 8945
1301
+ },
1302
+ {
1303
+ "epoch": 5.00279485746227,
1304
+ "grad_norm": 0.8835757374763489,
1305
+ "learning_rate": 0.00015874001774622893,
1306
+ "loss": 0.0792,
1307
+ "step": 8950
1308
+ },
1309
+ {
1310
+ "epoch": 5.0307434320849636,
1311
+ "grad_norm": 0.5846070647239685,
1312
+ "learning_rate": 0.0001565217391304348,
1313
+ "loss": 0.0834,
1314
+ "step": 9000
1315
+ },
1316
+ {
1317
+ "epoch": 5.058692006707658,
1318
+ "grad_norm": 0.4132053256034851,
1319
+ "learning_rate": 0.00015430346051464064,
1320
+ "loss": 0.0622,
1321
+ "step": 9050
1322
+ },
1323
+ {
1324
+ "epoch": 5.086640581330352,
1325
+ "grad_norm": 3.0904829502105713,
1326
+ "learning_rate": 0.00015208518189884648,
1327
+ "loss": 0.0626,
1328
+ "step": 9100
1329
+ },
1330
+ {
1331
+ "epoch": 5.1145891559530465,
1332
+ "grad_norm": 2.243579387664795,
1333
+ "learning_rate": 0.00014986690328305235,
1334
+ "loss": 0.0795,
1335
+ "step": 9150
1336
+ },
1337
+ {
1338
+ "epoch": 5.14253773057574,
1339
+ "grad_norm": 1.4317448139190674,
1340
+ "learning_rate": 0.0001476486246672582,
1341
+ "loss": 0.0642,
1342
+ "step": 9200
1343
+ },
1344
+ {
1345
+ "epoch": 5.170486305198435,
1346
+ "grad_norm": 0.3954031765460968,
1347
+ "learning_rate": 0.00014543034605146406,
1348
+ "loss": 0.0748,
1349
+ "step": 9250
1350
+ },
1351
+ {
1352
+ "epoch": 5.1984348798211295,
1353
+ "grad_norm": 0.7129592895507812,
1354
+ "learning_rate": 0.0001432120674356699,
1355
+ "loss": 0.0631,
1356
+ "step": 9300
1357
+ },
1358
+ {
1359
+ "epoch": 5.226383454443823,
1360
+ "grad_norm": 0.7119801044464111,
1361
+ "learning_rate": 0.0001409937888198758,
1362
+ "loss": 0.0672,
1363
+ "step": 9350
1364
+ },
1365
+ {
1366
+ "epoch": 5.254332029066518,
1367
+ "grad_norm": 1.8398321866989136,
1368
+ "learning_rate": 0.00013877551020408165,
1369
+ "loss": 0.0627,
1370
+ "step": 9400
1371
+ },
1372
+ {
1373
+ "epoch": 5.282280603689212,
1374
+ "grad_norm": 1.1668697595596313,
1375
+ "learning_rate": 0.0001365572315882875,
1376
+ "loss": 0.0661,
1377
+ "step": 9450
1378
+ },
1379
+ {
1380
+ "epoch": 5.310229178311906,
1381
+ "grad_norm": 0.6019765734672546,
1382
+ "learning_rate": 0.00013433895297249336,
1383
+ "loss": 0.0615,
1384
+ "step": 9500
1385
+ },
1386
+ {
1387
+ "epoch": 5.3381777529346,
1388
+ "grad_norm": 2.365870237350464,
1389
+ "learning_rate": 0.0001321206743566992,
1390
+ "loss": 0.0582,
1391
+ "step": 9550
1392
+ },
1393
+ {
1394
+ "epoch": 5.366126327557295,
1395
+ "grad_norm": 0.10710655897855759,
1396
+ "learning_rate": 0.00012990239574090507,
1397
+ "loss": 0.052,
1398
+ "step": 9600
1399
+ },
1400
+ {
1401
+ "epoch": 5.394074902179989,
1402
+ "grad_norm": 0.6959599852561951,
1403
+ "learning_rate": 0.0001276841171251109,
1404
+ "loss": 0.0558,
1405
+ "step": 9650
1406
+ },
1407
+ {
1408
+ "epoch": 5.422023476802683,
1409
+ "grad_norm": 0.11615774035453796,
1410
+ "learning_rate": 0.00012546583850931678,
1411
+ "loss": 0.0625,
1412
+ "step": 9700
1413
+ },
1414
+ {
1415
+ "epoch": 5.4499720514253776,
1416
+ "grad_norm": 0.057329438626766205,
1417
+ "learning_rate": 0.00012324755989352263,
1418
+ "loss": 0.0455,
1419
+ "step": 9750
1420
+ },
1421
+ {
1422
+ "epoch": 5.477920626048071,
1423
+ "grad_norm": 3.285327196121216,
1424
+ "learning_rate": 0.00012102928127772848,
1425
+ "loss": 0.0674,
1426
+ "step": 9800
1427
+ },
1428
+ {
1429
+ "epoch": 5.505869200670766,
1430
+ "grad_norm": 2.17206072807312,
1431
+ "learning_rate": 0.00011881100266193434,
1432
+ "loss": 0.0678,
1433
+ "step": 9850
1434
+ },
1435
+ {
1436
+ "epoch": 5.5338177752934605,
1437
+ "grad_norm": 0.2885390520095825,
1438
+ "learning_rate": 0.0001165927240461402,
1439
+ "loss": 0.0512,
1440
+ "step": 9900
1441
+ },
1442
+ {
1443
+ "epoch": 5.561766349916154,
1444
+ "grad_norm": 2.1970298290252686,
1445
+ "learning_rate": 0.00011437444543034606,
1446
+ "loss": 0.0598,
1447
+ "step": 9950
1448
+ },
1449
+ {
1450
+ "epoch": 5.589714924538849,
1451
+ "grad_norm": 0.1274396926164627,
1452
+ "learning_rate": 0.00011215616681455192,
1453
+ "loss": 0.0717,
1454
+ "step": 10000
1455
+ },
1456
+ {
1457
+ "epoch": 5.617663499161543,
1458
+ "grad_norm": 0.7299688458442688,
1459
+ "learning_rate": 0.00010993788819875776,
1460
+ "loss": 0.0797,
1461
+ "step": 10050
1462
+ },
1463
+ {
1464
+ "epoch": 5.645612073784237,
1465
+ "grad_norm": 0.5048921704292297,
1466
+ "learning_rate": 0.00010771960958296362,
1467
+ "loss": 0.0592,
1468
+ "step": 10100
1469
+ },
1470
+ {
1471
+ "epoch": 5.673560648406931,
1472
+ "grad_norm": 1.5433499813079834,
1473
+ "learning_rate": 0.00010550133096716947,
1474
+ "loss": 0.0702,
1475
+ "step": 10150
1476
+ },
1477
+ {
1478
+ "epoch": 5.701509223029626,
1479
+ "grad_norm": 0.23040899634361267,
1480
+ "learning_rate": 0.00010328305235137533,
1481
+ "loss": 0.0654,
1482
+ "step": 10200
1483
+ },
1484
+ {
1485
+ "epoch": 5.729457797652319,
1486
+ "grad_norm": 1.693513035774231,
1487
+ "learning_rate": 0.00010106477373558119,
1488
+ "loss": 0.0687,
1489
+ "step": 10250
1490
+ },
1491
+ {
1492
+ "epoch": 5.757406372275014,
1493
+ "grad_norm": 4.076319694519043,
1494
+ "learning_rate": 9.884649511978706e-05,
1495
+ "loss": 0.0639,
1496
+ "step": 10300
1497
+ },
1498
+ {
1499
+ "epoch": 5.785354946897709,
1500
+ "grad_norm": 0.48212429881095886,
1501
+ "learning_rate": 9.662821650399291e-05,
1502
+ "loss": 0.0604,
1503
+ "step": 10350
1504
+ },
1505
+ {
1506
+ "epoch": 5.813303521520402,
1507
+ "grad_norm": 0.04306049272418022,
1508
+ "learning_rate": 9.440993788819877e-05,
1509
+ "loss": 0.0495,
1510
+ "step": 10400
1511
+ },
1512
+ {
1513
+ "epoch": 5.841252096143097,
1514
+ "grad_norm": 0.23358555138111115,
1515
+ "learning_rate": 9.223602484472051e-05,
1516
+ "loss": 0.0615,
1517
+ "step": 10450
1518
+ },
1519
+ {
1520
+ "epoch": 5.869200670765791,
1521
+ "grad_norm": 1.8047716617584229,
1522
+ "learning_rate": 9.001774622892636e-05,
1523
+ "loss": 0.0531,
1524
+ "step": 10500
1525
+ },
1526
+ {
1527
+ "epoch": 5.897149245388485,
1528
+ "grad_norm": 0.1505836844444275,
1529
+ "learning_rate": 8.779946761313221e-05,
1530
+ "loss": 0.0529,
1531
+ "step": 10550
1532
+ },
1533
+ {
1534
+ "epoch": 5.92509782001118,
1535
+ "grad_norm": 0.42754456400871277,
1536
+ "learning_rate": 8.558118899733806e-05,
1537
+ "loss": 0.0567,
1538
+ "step": 10600
1539
+ },
1540
+ {
1541
+ "epoch": 5.953046394633874,
1542
+ "grad_norm": 1.9926128387451172,
1543
+ "learning_rate": 8.336291038154392e-05,
1544
+ "loss": 0.0473,
1545
+ "step": 10650
1546
+ },
1547
+ {
1548
+ "epoch": 5.980994969256568,
1549
+ "grad_norm": 0.3347943425178528,
1550
+ "learning_rate": 8.114463176574978e-05,
1551
+ "loss": 0.0688,
1552
+ "step": 10700
1553
+ },
1554
+ {
1555
+ "epoch": 6.0,
1556
+ "eval_f1": 0.9666100735710244,
1557
+ "eval_loss": 0.08690152317285538,
1558
+ "eval_runtime": 15.4749,
1559
+ "eval_samples_per_second": 236.512,
1560
+ "eval_steps_per_second": 7.431,
1561
+ "step": 10734
1562
+ },
1563
+ {
1564
+ "epoch": 6.008943543879262,
1565
+ "grad_norm": 0.8442544341087341,
1566
+ "learning_rate": 7.892635314995563e-05,
1567
+ "loss": 0.0456,
1568
+ "step": 10750
1569
+ },
1570
+ {
1571
+ "epoch": 6.036892118501957,
1572
+ "grad_norm": 1.1793649196624756,
1573
+ "learning_rate": 7.67080745341615e-05,
1574
+ "loss": 0.0434,
1575
+ "step": 10800
1576
+ },
1577
+ {
1578
+ "epoch": 6.06484069312465,
1579
+ "grad_norm": 0.9821094870567322,
1580
+ "learning_rate": 7.448979591836736e-05,
1581
+ "loss": 0.0455,
1582
+ "step": 10850
1583
+ },
1584
+ {
1585
+ "epoch": 6.092789267747345,
1586
+ "grad_norm": 0.5856317281723022,
1587
+ "learning_rate": 7.227151730257321e-05,
1588
+ "loss": 0.0365,
1589
+ "step": 10900
1590
+ },
1591
+ {
1592
+ "epoch": 6.120737842370039,
1593
+ "grad_norm": 0.5461094379425049,
1594
+ "learning_rate": 7.005323868677906e-05,
1595
+ "loss": 0.0342,
1596
+ "step": 10950
1597
+ },
1598
+ {
1599
+ "epoch": 6.148686416992733,
1600
+ "grad_norm": 2.0931904315948486,
1601
+ "learning_rate": 6.783496007098491e-05,
1602
+ "loss": 0.0423,
1603
+ "step": 11000
1604
+ },
1605
+ {
1606
+ "epoch": 6.176634991615428,
1607
+ "grad_norm": 0.046953145414590836,
1608
+ "learning_rate": 6.561668145519077e-05,
1609
+ "loss": 0.0523,
1610
+ "step": 11050
1611
+ },
1612
+ {
1613
+ "epoch": 6.204583566238122,
1614
+ "grad_norm": 1.0641871690750122,
1615
+ "learning_rate": 6.339840283939662e-05,
1616
+ "loss": 0.0421,
1617
+ "step": 11100
1618
+ },
1619
+ {
1620
+ "epoch": 6.232532140860816,
1621
+ "grad_norm": 0.4122409224510193,
1622
+ "learning_rate": 6.118012422360248e-05,
1623
+ "loss": 0.0441,
1624
+ "step": 11150
1625
+ },
1626
+ {
1627
+ "epoch": 6.26048071548351,
1628
+ "grad_norm": 0.2935519218444824,
1629
+ "learning_rate": 5.8961845607808344e-05,
1630
+ "loss": 0.0354,
1631
+ "step": 11200
1632
+ },
1633
+ {
1634
+ "epoch": 6.288429290106205,
1635
+ "grad_norm": 0.8135849833488464,
1636
+ "learning_rate": 5.6743566992014193e-05,
1637
+ "loss": 0.0333,
1638
+ "step": 11250
1639
+ },
1640
+ {
1641
+ "epoch": 6.316377864728899,
1642
+ "grad_norm": 1.1806564331054688,
1643
+ "learning_rate": 5.4525288376220056e-05,
1644
+ "loss": 0.0614,
1645
+ "step": 11300
1646
+ },
1647
+ {
1648
+ "epoch": 6.344326439351593,
1649
+ "grad_norm": 0.5362429022789001,
1650
+ "learning_rate": 5.230700976042591e-05,
1651
+ "loss": 0.0453,
1652
+ "step": 11350
1653
+ },
1654
+ {
1655
+ "epoch": 6.372275013974288,
1656
+ "grad_norm": 0.10853467881679535,
1657
+ "learning_rate": 5.008873114463176e-05,
1658
+ "loss": 0.0371,
1659
+ "step": 11400
1660
+ },
1661
+ {
1662
+ "epoch": 6.400223588596981,
1663
+ "grad_norm": 2.1878767013549805,
1664
+ "learning_rate": 4.787045252883762e-05,
1665
+ "loss": 0.0418,
1666
+ "step": 11450
1667
+ },
1668
+ {
1669
+ "epoch": 6.428172163219676,
1670
+ "grad_norm": 1.1209208965301514,
1671
+ "learning_rate": 4.565217391304348e-05,
1672
+ "loss": 0.0257,
1673
+ "step": 11500
1674
+ },
1675
+ {
1676
+ "epoch": 6.45612073784237,
1677
+ "grad_norm": 1.4330588579177856,
1678
+ "learning_rate": 4.343389529724934e-05,
1679
+ "loss": 0.0595,
1680
+ "step": 11550
1681
+ },
1682
+ {
1683
+ "epoch": 6.484069312465064,
1684
+ "grad_norm": 1.9309511184692383,
1685
+ "learning_rate": 4.1215616681455187e-05,
1686
+ "loss": 0.0357,
1687
+ "step": 11600
1688
+ },
1689
+ {
1690
+ "epoch": 6.512017887087758,
1691
+ "grad_norm": 0.004909028764814138,
1692
+ "learning_rate": 3.899733806566105e-05,
1693
+ "loss": 0.0332,
1694
+ "step": 11650
1695
+ },
1696
+ {
1697
+ "epoch": 6.539966461710453,
1698
+ "grad_norm": 0.5627462267875671,
1699
+ "learning_rate": 3.6779059449866906e-05,
1700
+ "loss": 0.0416,
1701
+ "step": 11700
1702
+ },
1703
+ {
1704
+ "epoch": 6.567915036333147,
1705
+ "grad_norm": 4.456967830657959,
1706
+ "learning_rate": 3.456078083407276e-05,
1707
+ "loss": 0.045,
1708
+ "step": 11750
1709
+ },
1710
+ {
1711
+ "epoch": 6.595863610955841,
1712
+ "grad_norm": 2.8317513465881348,
1713
+ "learning_rate": 3.234250221827861e-05,
1714
+ "loss": 0.0305,
1715
+ "step": 11800
1716
+ },
1717
+ {
1718
+ "epoch": 6.623812185578536,
1719
+ "grad_norm": 2.5559463500976562,
1720
+ "learning_rate": 3.012422360248447e-05,
1721
+ "loss": 0.0297,
1722
+ "step": 11850
1723
+ },
1724
+ {
1725
+ "epoch": 6.651760760201229,
1726
+ "grad_norm": 0.5523830056190491,
1727
+ "learning_rate": 2.790594498669033e-05,
1728
+ "loss": 0.0325,
1729
+ "step": 11900
1730
+ },
1731
+ {
1732
+ "epoch": 6.679709334823924,
1733
+ "grad_norm": 0.04988823086023331,
1734
+ "learning_rate": 2.5687666370896183e-05,
1735
+ "loss": 0.0313,
1736
+ "step": 11950
1737
+ },
1738
+ {
1739
+ "epoch": 6.707657909446619,
1740
+ "grad_norm": 1.5902944803237915,
1741
+ "learning_rate": 2.3469387755102043e-05,
1742
+ "loss": 0.0369,
1743
+ "step": 12000
1744
+ },
1745
+ {
1746
+ "epoch": 6.735606484069312,
1747
+ "grad_norm": 1.3617613315582275,
1748
+ "learning_rate": 2.1251109139307896e-05,
1749
+ "loss": 0.0338,
1750
+ "step": 12050
1751
+ },
1752
+ {
1753
+ "epoch": 6.763555058692007,
1754
+ "grad_norm": 0.13116395473480225,
1755
+ "learning_rate": 1.9032830523513755e-05,
1756
+ "loss": 0.0254,
1757
+ "step": 12100
1758
+ },
1759
+ {
1760
+ "epoch": 6.791503633314701,
1761
+ "grad_norm": 0.7528799176216125,
1762
+ "learning_rate": 1.6814551907719608e-05,
1763
+ "loss": 0.0322,
1764
+ "step": 12150
1765
+ },
1766
+ {
1767
+ "epoch": 6.819452207937395,
1768
+ "grad_norm": 1.894806146621704,
1769
+ "learning_rate": 1.4596273291925467e-05,
1770
+ "loss": 0.0254,
1771
+ "step": 12200
1772
+ },
1773
+ {
1774
+ "epoch": 6.847400782560089,
1775
+ "grad_norm": 0.5565615892410278,
1776
+ "learning_rate": 1.2377994676131324e-05,
1777
+ "loss": 0.0284,
1778
+ "step": 12250
1779
+ },
1780
+ {
1781
+ "epoch": 6.875349357182784,
1782
+ "grad_norm": 0.45591992139816284,
1783
+ "learning_rate": 1.015971606033718e-05,
1784
+ "loss": 0.0356,
1785
+ "step": 12300
1786
+ },
1787
+ {
1788
+ "epoch": 6.9032979318054775,
1789
+ "grad_norm": 1.1384029388427734,
1790
+ "learning_rate": 7.941437444543036e-06,
1791
+ "loss": 0.0308,
1792
+ "step": 12350
1793
+ },
1794
+ {
1795
+ "epoch": 6.931246506428172,
1796
+ "grad_norm": 0.24669720232486725,
1797
+ "learning_rate": 5.7231588287488905e-06,
1798
+ "loss": 0.0385,
1799
+ "step": 12400
1800
+ },
1801
+ {
1802
+ "epoch": 6.959195081050867,
1803
+ "grad_norm": 2.1776230335235596,
1804
+ "learning_rate": 3.5048802129547475e-06,
1805
+ "loss": 0.0271,
1806
+ "step": 12450
1807
+ },
1808
+ {
1809
+ "epoch": 6.98714365567356,
1810
+ "grad_norm": 0.8091051578521729,
1811
+ "learning_rate": 1.2866015971606034e-06,
1812
+ "loss": 0.0303,
1813
+ "step": 12500
1814
+ },
1815
+ {
1816
+ "epoch": 7.0,
1817
+ "eval_f1": 0.9760225669957687,
1818
+ "eval_loss": 0.06743501126766205,
1819
+ "eval_runtime": 16.4262,
1820
+ "eval_samples_per_second": 222.815,
1821
+ "eval_steps_per_second": 7.001,
1822
+ "step": 12523
1823
+ },
1824
+ {
1825
+ "epoch": 7.0,
1826
+ "step": 12523,
1827
+ "total_flos": 2.1045216318570566e+19,
1828
+ "train_loss": 0.12371139868869004,
1829
+ "train_runtime": 2341.9199,
1830
+ "train_samples_per_second": 171.111,
1831
+ "train_steps_per_second": 5.347
1832
+ }
1833
+ ],
1834
+ "logging_steps": 50,
1835
+ "max_steps": 12523,
1836
+ "num_input_tokens_seen": 0,
1837
+ "num_train_epochs": 7,
1838
+ "save_steps": 500,
1839
+ "stateful_callbacks": {
1840
+ "TrainerControl": {
1841
+ "args": {
1842
+ "should_epoch_stop": false,
1843
+ "should_evaluate": false,
1844
+ "should_log": false,
1845
+ "should_save": true,
1846
+ "should_training_stop": true
1847
+ },
1848
+ "attributes": {}
1849
+ }
1850
+ },
1851
+ "total_flos": 2.1045216318570566e+19,
1852
+ "train_batch_size": 32,
1853
+ "trial_name": null,
1854
+ "trial_params": null
1855
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:018b1cc79f445b7fda77d6931acd6c935bbc6899a188e5565257443a139ef323
3
+ size 5304