jssky commited on
Commit
df87bc9
·
verified ·
1 Parent(s): aacf50e

Training in progress, step 560, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4b543d9e019f6d5c3cd652914901b2739520d85b9e6044fe4d75f753c8dd4dc9
3
  size 80013120
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:86e4cb8ff828d940202480f4bf809c5a8c28e8bda594058004fd6fedcf340deb
3
  size 80013120
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:14c61ad2090140d21c6df9e0a61cd6d3225a4e43d63a4283da89db183775f6ae
3
  size 41120084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b58206039ff4a896ccc8cb3fdaa8d57b843c989eb4832ff2a606082e29c6812e
3
  size 41120084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c08654f8daac8b1091c235d2fb6bd8b249208c723b2dd501bc93b7ca776f4cba
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d2a7a94af35907f76baad16bf73c2fcb56ea77ed482ac94a96e55df62acb9e2d
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:24b34984058cd5169df3c13d6905d5f65a7c10a7cf4235e831bb570e73473147
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9fd920ca7c276a3eaed9fc64f5a8671269635687c93d3a6383990a00e0334d1c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.75,
5
  "eval_steps": 140,
6
- "global_step": 420,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2971,6 +2971,994 @@
2971
  "eval_samples_per_second": 17.637,
2972
  "eval_steps_per_second": 8.819,
2973
  "step": 420
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2974
  }
2975
  ],
2976
  "logging_steps": 1,
@@ -2985,12 +3973,12 @@
2985
  "should_evaluate": false,
2986
  "should_log": false,
2987
  "should_save": true,
2988
- "should_training_stop": false
2989
  },
2990
  "attributes": {}
2991
  }
2992
  },
2993
- "total_flos": 1.3697781125559091e+17,
2994
  "train_batch_size": 2,
2995
  "trial_name": null,
2996
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 140,
6
+ "global_step": 560,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2971
  "eval_samples_per_second": 17.637,
2972
  "eval_steps_per_second": 8.819,
2973
  "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.7517857142857143,
2977
+ "grad_norm": 0.2867870330810547,
2978
+ "learning_rate": 2.9897757571668905e-05,
2979
+ "loss": 1.5308,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.7535714285714286,
2984
+ "grad_norm": 0.26840099692344666,
2985
+ "learning_rate": 2.949155921388943e-05,
2986
+ "loss": 1.8933,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.7553571428571428,
2991
+ "grad_norm": 0.32162272930145264,
2992
+ "learning_rate": 2.9087661314045366e-05,
2993
+ "loss": 1.6497,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.7571428571428571,
2998
+ "grad_norm": 0.2842392921447754,
2999
+ "learning_rate": 2.8686077049993287e-05,
3000
+ "loss": 1.521,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.7589285714285714,
3005
+ "grad_norm": 0.28831931948661804,
3006
+ "learning_rate": 2.828681952410366e-05,
3007
+ "loss": 1.2619,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.7607142857142857,
3012
+ "grad_norm": 0.2879536747932434,
3013
+ "learning_rate": 2.7889901762833083e-05,
3014
+ "loss": 1.1705,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.7625,
3019
+ "grad_norm": 0.32446354627609253,
3020
+ "learning_rate": 2.7495336716299313e-05,
3021
+ "loss": 1.1636,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.7642857142857142,
3026
+ "grad_norm": 0.2487679123878479,
3027
+ "learning_rate": 2.7103137257858868e-05,
3028
+ "loss": 0.7092,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.7660714285714286,
3033
+ "grad_norm": 0.3402203321456909,
3034
+ "learning_rate": 2.671331618368682e-05,
3035
+ "loss": 0.8279,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.7678571428571429,
3040
+ "grad_norm": 0.3117457330226898,
3041
+ "learning_rate": 2.6325886212359498e-05,
3042
+ "loss": 1.2101,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.7696428571428572,
3047
+ "grad_norm": 0.28996577858924866,
3048
+ "learning_rate": 2.5940859984439424e-05,
3049
+ "loss": 1.1556,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.7714285714285715,
3054
+ "grad_norm": 0.31623905897140503,
3055
+ "learning_rate": 2.5558250062062828e-05,
3056
+ "loss": 1.1324,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.7732142857142857,
3061
+ "grad_norm": 0.29438769817352295,
3062
+ "learning_rate": 2.5178068928529864e-05,
3063
+ "loss": 1.4183,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.775,
3068
+ "grad_norm": 0.31944945454597473,
3069
+ "learning_rate": 2.4800328987897427e-05,
3070
+ "loss": 1.1763,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.7767857142857143,
3075
+ "grad_norm": 0.32895660400390625,
3076
+ "learning_rate": 2.4425042564574184e-05,
3077
+ "loss": 0.8288,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.7785714285714286,
3082
+ "grad_norm": 0.46789219975471497,
3083
+ "learning_rate": 2.4052221902918725e-05,
3084
+ "loss": 0.889,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.7803571428571429,
3089
+ "grad_norm": 0.35038378834724426,
3090
+ "learning_rate": 2.368187916683997e-05,
3091
+ "loss": 1.1607,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.7821428571428571,
3096
+ "grad_norm": 0.3326191008090973,
3097
+ "learning_rate": 2.3314026439400217e-05,
3098
+ "loss": 1.3321,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.7839285714285714,
3103
+ "grad_norm": 0.3683798015117645,
3104
+ "learning_rate": 2.2948675722421086e-05,
3105
+ "loss": 0.831,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.7857142857142857,
3110
+ "grad_norm": 0.3587857186794281,
3111
+ "learning_rate": 2.2585838936091754e-05,
3112
+ "loss": 1.0373,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.7875,
3117
+ "grad_norm": 0.341905802488327,
3118
+ "learning_rate": 2.2225527918580204e-05,
3119
+ "loss": 1.2294,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.7892857142857143,
3124
+ "grad_norm": 0.36167776584625244,
3125
+ "learning_rate": 2.1867754425646926e-05,
3126
+ "loss": 1.06,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.7910714285714285,
3131
+ "grad_norm": 0.35555702447891235,
3132
+ "learning_rate": 2.151253013026121e-05,
3133
+ "loss": 1.5072,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.7928571428571428,
3138
+ "grad_norm": 0.34384891390800476,
3139
+ "learning_rate": 2.115986662222058e-05,
3140
+ "loss": 1.3456,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.7946428571428571,
3145
+ "grad_norm": 0.3673519492149353,
3146
+ "learning_rate": 2.0809775407772503e-05,
3147
+ "loss": 1.3223,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.7964285714285714,
3152
+ "grad_norm": 0.400193452835083,
3153
+ "learning_rate": 2.0462267909238896e-05,
3154
+ "loss": 1.562,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.7982142857142858,
3159
+ "grad_norm": 0.4361307621002197,
3160
+ "learning_rate": 2.011735546464365e-05,
3161
+ "loss": 1.1107,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.8,
3166
+ "grad_norm": 0.38674113154411316,
3167
+ "learning_rate": 1.9775049327342486e-05,
3168
+ "loss": 1.2813,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.8017857142857143,
3173
+ "grad_norm": 0.40437138080596924,
3174
+ "learning_rate": 1.943536066565603e-05,
3175
+ "loss": 1.5164,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.8035714285714286,
3180
+ "grad_norm": 0.5968692898750305,
3181
+ "learning_rate": 1.9098300562505266e-05,
3182
+ "loss": 2.0903,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.8053571428571429,
3187
+ "grad_norm": 0.16759343445301056,
3188
+ "learning_rate": 1.876388001504995e-05,
3189
+ "loss": 1.4236,
3190
+ "step": 451
3191
+ },
3192
+ {
3193
+ "epoch": 0.8071428571428572,
3194
+ "grad_norm": 0.1815633326768875,
3195
+ "learning_rate": 1.8432109934329834e-05,
3196
+ "loss": 1.6486,
3197
+ "step": 452
3198
+ },
3199
+ {
3200
+ "epoch": 0.8089285714285714,
3201
+ "grad_norm": 0.18043053150177002,
3202
+ "learning_rate": 1.810300114490875e-05,
3203
+ "loss": 1.4118,
3204
+ "step": 453
3205
+ },
3206
+ {
3207
+ "epoch": 0.8107142857142857,
3208
+ "grad_norm": 0.19016335904598236,
3209
+ "learning_rate": 1.777656438452129e-05,
3210
+ "loss": 1.4844,
3211
+ "step": 454
3212
+ },
3213
+ {
3214
+ "epoch": 0.8125,
3215
+ "grad_norm": 0.2066669464111328,
3216
+ "learning_rate": 1.74528103037226e-05,
3217
+ "loss": 1.583,
3218
+ "step": 455
3219
+ },
3220
+ {
3221
+ "epoch": 0.8142857142857143,
3222
+ "grad_norm": 0.21698947250843048,
3223
+ "learning_rate": 1.713174946554086e-05,
3224
+ "loss": 1.6314,
3225
+ "step": 456
3226
+ },
3227
+ {
3228
+ "epoch": 0.8160714285714286,
3229
+ "grad_norm": 0.21937011182308197,
3230
+ "learning_rate": 1.6813392345132518e-05,
3231
+ "loss": 1.6342,
3232
+ "step": 457
3233
+ },
3234
+ {
3235
+ "epoch": 0.8178571428571428,
3236
+ "grad_norm": 0.24016696214675903,
3237
+ "learning_rate": 1.649774932944075e-05,
3238
+ "loss": 1.7726,
3239
+ "step": 458
3240
+ },
3241
+ {
3242
+ "epoch": 0.8196428571428571,
3243
+ "grad_norm": 0.23045389354228973,
3244
+ "learning_rate": 1.6184830716856347e-05,
3245
+ "loss": 1.8679,
3246
+ "step": 459
3247
+ },
3248
+ {
3249
+ "epoch": 0.8214285714285714,
3250
+ "grad_norm": 0.2114153504371643,
3251
+ "learning_rate": 1.587464671688187e-05,
3252
+ "loss": 1.6223,
3253
+ "step": 460
3254
+ },
3255
+ {
3256
+ "epoch": 0.8232142857142857,
3257
+ "grad_norm": 0.22911155223846436,
3258
+ "learning_rate": 1.5567207449798515e-05,
3259
+ "loss": 1.6179,
3260
+ "step": 461
3261
+ },
3262
+ {
3263
+ "epoch": 0.825,
3264
+ "grad_norm": 0.22748011350631714,
3265
+ "learning_rate": 1.5262522946335755e-05,
3266
+ "loss": 1.7988,
3267
+ "step": 462
3268
+ },
3269
+ {
3270
+ "epoch": 0.8267857142857142,
3271
+ "grad_norm": 0.22931312024593353,
3272
+ "learning_rate": 1.4960603147344343e-05,
3273
+ "loss": 1.6515,
3274
+ "step": 463
3275
+ },
3276
+ {
3277
+ "epoch": 0.8285714285714286,
3278
+ "grad_norm": 0.24372749030590057,
3279
+ "learning_rate": 1.466145790347183e-05,
3280
+ "loss": 1.855,
3281
+ "step": 464
3282
+ },
3283
+ {
3284
+ "epoch": 0.8303571428571429,
3285
+ "grad_norm": 0.24426500499248505,
3286
+ "learning_rate": 1.4365096974841108e-05,
3287
+ "loss": 1.7367,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 0.8321428571428572,
3292
+ "grad_norm": 0.22962844371795654,
3293
+ "learning_rate": 1.4071530030732095e-05,
3294
+ "loss": 1.871,
3295
+ "step": 466
3296
+ },
3297
+ {
3298
+ "epoch": 0.8339285714285715,
3299
+ "grad_norm": 0.25352221727371216,
3300
+ "learning_rate": 1.3780766649266242e-05,
3301
+ "loss": 1.816,
3302
+ "step": 467
3303
+ },
3304
+ {
3305
+ "epoch": 0.8357142857142857,
3306
+ "grad_norm": 0.2572453022003174,
3307
+ "learning_rate": 1.3492816317093893e-05,
3308
+ "loss": 1.857,
3309
+ "step": 468
3310
+ },
3311
+ {
3312
+ "epoch": 0.8375,
3313
+ "grad_norm": 0.26578372716903687,
3314
+ "learning_rate": 1.3207688429084974e-05,
3315
+ "loss": 1.8242,
3316
+ "step": 469
3317
+ },
3318
+ {
3319
+ "epoch": 0.8392857142857143,
3320
+ "grad_norm": 0.2806295156478882,
3321
+ "learning_rate": 1.2925392288022298e-05,
3322
+ "loss": 1.9345,
3323
+ "step": 470
3324
+ },
3325
+ {
3326
+ "epoch": 0.8410714285714286,
3327
+ "grad_norm": 0.2791413962841034,
3328
+ "learning_rate": 1.2645937104298111e-05,
3329
+ "loss": 1.4595,
3330
+ "step": 471
3331
+ },
3332
+ {
3333
+ "epoch": 0.8428571428571429,
3334
+ "grad_norm": 0.25607559084892273,
3335
+ "learning_rate": 1.2369331995613665e-05,
3336
+ "loss": 1.493,
3337
+ "step": 472
3338
+ },
3339
+ {
3340
+ "epoch": 0.8446428571428571,
3341
+ "grad_norm": 0.2600158452987671,
3342
+ "learning_rate": 1.2095585986681535e-05,
3343
+ "loss": 1.4394,
3344
+ "step": 473
3345
+ },
3346
+ {
3347
+ "epoch": 0.8464285714285714,
3348
+ "grad_norm": 0.27362141013145447,
3349
+ "learning_rate": 1.1824708008931418e-05,
3350
+ "loss": 1.0637,
3351
+ "step": 474
3352
+ },
3353
+ {
3354
+ "epoch": 0.8482142857142857,
3355
+ "grad_norm": 0.27769190073013306,
3356
+ "learning_rate": 1.1556706900218572e-05,
3357
+ "loss": 1.2003,
3358
+ "step": 475
3359
+ },
3360
+ {
3361
+ "epoch": 0.85,
3362
+ "grad_norm": 0.2426546961069107,
3363
+ "learning_rate": 1.1291591404535462e-05,
3364
+ "loss": 0.8119,
3365
+ "step": 476
3366
+ },
3367
+ {
3368
+ "epoch": 0.8517857142857143,
3369
+ "grad_norm": 0.2766360938549042,
3370
+ "learning_rate": 1.1029370171726571e-05,
3371
+ "loss": 1.0697,
3372
+ "step": 477
3373
+ },
3374
+ {
3375
+ "epoch": 0.8535714285714285,
3376
+ "grad_norm": 0.31444060802459717,
3377
+ "learning_rate": 1.0770051757206079e-05,
3378
+ "loss": 1.3142,
3379
+ "step": 478
3380
+ },
3381
+ {
3382
+ "epoch": 0.8553571428571428,
3383
+ "grad_norm": 0.33098921179771423,
3384
+ "learning_rate": 1.051364462167881e-05,
3385
+ "loss": 1.0656,
3386
+ "step": 479
3387
+ },
3388
+ {
3389
+ "epoch": 0.8571428571428571,
3390
+ "grad_norm": 0.327269583940506,
3391
+ "learning_rate": 1.026015713086418e-05,
3392
+ "loss": 1.1335,
3393
+ "step": 480
3394
+ },
3395
+ {
3396
+ "epoch": 0.8589285714285714,
3397
+ "grad_norm": 0.30396682024002075,
3398
+ "learning_rate": 1.0009597555223128e-05,
3399
+ "loss": 1.2085,
3400
+ "step": 481
3401
+ },
3402
+ {
3403
+ "epoch": 0.8607142857142858,
3404
+ "grad_norm": 0.30377310514450073,
3405
+ "learning_rate": 9.761974069688461e-06,
3406
+ "loss": 1.3687,
3407
+ "step": 482
3408
+ },
3409
+ {
3410
+ "epoch": 0.8625,
3411
+ "grad_norm": 0.3333049714565277,
3412
+ "learning_rate": 9.517294753398064e-06,
3413
+ "loss": 1.0564,
3414
+ "step": 483
3415
+ },
3416
+ {
3417
+ "epoch": 0.8642857142857143,
3418
+ "grad_norm": 0.3406635820865631,
3419
+ "learning_rate": 9.275567589431178e-06,
3420
+ "loss": 1.1551,
3421
+ "step": 484
3422
+ },
3423
+ {
3424
+ "epoch": 0.8660714285714286,
3425
+ "grad_norm": 0.35342979431152344,
3426
+ "learning_rate": 9.036800464548157e-06,
3427
+ "loss": 0.8579,
3428
+ "step": 485
3429
+ },
3430
+ {
3431
+ "epoch": 0.8678571428571429,
3432
+ "grad_norm": 0.338238000869751,
3433
+ "learning_rate": 8.80100116893301e-06,
3434
+ "loss": 1.2404,
3435
+ "step": 486
3436
+ },
3437
+ {
3438
+ "epoch": 0.8696428571428572,
3439
+ "grad_norm": 0.32925620675086975,
3440
+ "learning_rate": 8.568177395939215e-06,
3441
+ "loss": 0.9557,
3442
+ "step": 487
3443
+ },
3444
+ {
3445
+ "epoch": 0.8714285714285714,
3446
+ "grad_norm": 0.36271733045578003,
3447
+ "learning_rate": 8.338336741838838e-06,
3448
+ "loss": 1.1323,
3449
+ "step": 488
3450
+ },
3451
+ {
3452
+ "epoch": 0.8732142857142857,
3453
+ "grad_norm": 0.373471736907959,
3454
+ "learning_rate": 8.111486705574534e-06,
3455
+ "loss": 0.9512,
3456
+ "step": 489
3457
+ },
3458
+ {
3459
+ "epoch": 0.875,
3460
+ "grad_norm": 0.3971388041973114,
3461
+ "learning_rate": 7.887634688515e-06,
3462
+ "loss": 1.0311,
3463
+ "step": 490
3464
+ },
3465
+ {
3466
+ "epoch": 0.8767857142857143,
3467
+ "grad_norm": 0.35106372833251953,
3468
+ "learning_rate": 7.666787994213453e-06,
3469
+ "loss": 1.0705,
3470
+ "step": 491
3471
+ },
3472
+ {
3473
+ "epoch": 0.8785714285714286,
3474
+ "grad_norm": 0.3654085099697113,
3475
+ "learning_rate": 7.448953828169314e-06,
3476
+ "loss": 1.2338,
3477
+ "step": 492
3478
+ },
3479
+ {
3480
+ "epoch": 0.8803571428571428,
3481
+ "grad_norm": 0.3616616725921631,
3482
+ "learning_rate": 7.2341392975931785e-06,
3483
+ "loss": 1.0171,
3484
+ "step": 493
3485
+ },
3486
+ {
3487
+ "epoch": 0.8821428571428571,
3488
+ "grad_norm": 0.39053040742874146,
3489
+ "learning_rate": 7.022351411174866e-06,
3490
+ "loss": 1.2481,
3491
+ "step": 494
3492
+ },
3493
+ {
3494
+ "epoch": 0.8839285714285714,
3495
+ "grad_norm": 0.36361098289489746,
3496
+ "learning_rate": 6.813597078854772e-06,
3497
+ "loss": 1.3712,
3498
+ "step": 495
3499
+ },
3500
+ {
3501
+ "epoch": 0.8857142857142857,
3502
+ "grad_norm": 0.3919769823551178,
3503
+ "learning_rate": 6.607883111598445e-06,
3504
+ "loss": 1.2261,
3505
+ "step": 496
3506
+ },
3507
+ {
3508
+ "epoch": 0.8875,
3509
+ "grad_norm": 0.3980182707309723,
3510
+ "learning_rate": 6.405216221174326e-06,
3511
+ "loss": 1.2769,
3512
+ "step": 497
3513
+ },
3514
+ {
3515
+ "epoch": 0.8892857142857142,
3516
+ "grad_norm": 0.4138076901435852,
3517
+ "learning_rate": 6.205603019934791e-06,
3518
+ "loss": 1.4143,
3519
+ "step": 498
3520
+ },
3521
+ {
3522
+ "epoch": 0.8910714285714286,
3523
+ "grad_norm": 0.47321876883506775,
3524
+ "learning_rate": 6.009050020600459e-06,
3525
+ "loss": 1.687,
3526
+ "step": 499
3527
+ },
3528
+ {
3529
+ "epoch": 0.8928571428571429,
3530
+ "grad_norm": 0.532382607460022,
3531
+ "learning_rate": 5.8155636360475385e-06,
3532
+ "loss": 2.0251,
3533
+ "step": 500
3534
+ },
3535
+ {
3536
+ "epoch": 0.8946428571428572,
3537
+ "grad_norm": 0.16291013360023499,
3538
+ "learning_rate": 5.625150179098804e-06,
3539
+ "loss": 1.3453,
3540
+ "step": 501
3541
+ },
3542
+ {
3543
+ "epoch": 0.8964285714285715,
3544
+ "grad_norm": 0.19601905345916748,
3545
+ "learning_rate": 5.437815862317519e-06,
3546
+ "loss": 1.6226,
3547
+ "step": 502
3548
+ },
3549
+ {
3550
+ "epoch": 0.8982142857142857,
3551
+ "grad_norm": 0.20232488214969635,
3552
+ "learning_rate": 5.25356679780471e-06,
3553
+ "loss": 1.7009,
3554
+ "step": 503
3555
+ },
3556
+ {
3557
+ "epoch": 0.9,
3558
+ "grad_norm": 0.21668295562267303,
3559
+ "learning_rate": 5.072408996999844e-06,
3560
+ "loss": 1.674,
3561
+ "step": 504
3562
+ },
3563
+ {
3564
+ "epoch": 0.9017857142857143,
3565
+ "grad_norm": 0.208509162068367,
3566
+ "learning_rate": 4.8943483704846475e-06,
3567
+ "loss": 1.7305,
3568
+ "step": 505
3569
+ },
3570
+ {
3571
+ "epoch": 0.9035714285714286,
3572
+ "grad_norm": 0.22677063941955566,
3573
+ "learning_rate": 4.719390727790218e-06,
3574
+ "loss": 1.9097,
3575
+ "step": 506
3576
+ },
3577
+ {
3578
+ "epoch": 0.9053571428571429,
3579
+ "grad_norm": 0.2320660501718521,
3580
+ "learning_rate": 4.547541777207565e-06,
3581
+ "loss": 1.6309,
3582
+ "step": 507
3583
+ },
3584
+ {
3585
+ "epoch": 0.9071428571428571,
3586
+ "grad_norm": 0.21626609563827515,
3587
+ "learning_rate": 4.378807125601303e-06,
3588
+ "loss": 1.8275,
3589
+ "step": 508
3590
+ },
3591
+ {
3592
+ "epoch": 0.9089285714285714,
3593
+ "grad_norm": 0.2348957508802414,
3594
+ "learning_rate": 4.2131922782267405e-06,
3595
+ "loss": 1.6609,
3596
+ "step": 509
3597
+ },
3598
+ {
3599
+ "epoch": 0.9107142857142857,
3600
+ "grad_norm": 0.21976341307163239,
3601
+ "learning_rate": 4.050702638550275e-06,
3602
+ "loss": 1.6476,
3603
+ "step": 510
3604
+ },
3605
+ {
3606
+ "epoch": 0.9125,
3607
+ "grad_norm": 0.25860780477523804,
3608
+ "learning_rate": 3.891343508073053e-06,
3609
+ "loss": 1.7382,
3610
+ "step": 511
3611
+ },
3612
+ {
3613
+ "epoch": 0.9142857142857143,
3614
+ "grad_norm": 0.24138076603412628,
3615
+ "learning_rate": 3.7351200861580617e-06,
3616
+ "loss": 1.7668,
3617
+ "step": 512
3618
+ },
3619
+ {
3620
+ "epoch": 0.9160714285714285,
3621
+ "grad_norm": 0.23734422028064728,
3622
+ "learning_rate": 3.5820374698604555e-06,
3623
+ "loss": 1.794,
3624
+ "step": 513
3625
+ },
3626
+ {
3627
+ "epoch": 0.9178571428571428,
3628
+ "grad_norm": 0.23496972024440765,
3629
+ "learning_rate": 3.4321006537612165e-06,
3630
+ "loss": 1.7674,
3631
+ "step": 514
3632
+ },
3633
+ {
3634
+ "epoch": 0.9196428571428571,
3635
+ "grad_norm": 0.24626807868480682,
3636
+ "learning_rate": 3.2853145298042953e-06,
3637
+ "loss": 2.0287,
3638
+ "step": 515
3639
+ },
3640
+ {
3641
+ "epoch": 0.9214285714285714,
3642
+ "grad_norm": 0.24339932203292847,
3643
+ "learning_rate": 3.1416838871368924e-06,
3644
+ "loss": 1.8533,
3645
+ "step": 516
3646
+ },
3647
+ {
3648
+ "epoch": 0.9232142857142858,
3649
+ "grad_norm": 0.253841370344162,
3650
+ "learning_rate": 3.0012134119532964e-06,
3651
+ "loss": 1.6682,
3652
+ "step": 517
3653
+ },
3654
+ {
3655
+ "epoch": 0.925,
3656
+ "grad_norm": 0.26810407638549805,
3657
+ "learning_rate": 2.863907687341949e-06,
3658
+ "loss": 1.4686,
3659
+ "step": 518
3660
+ },
3661
+ {
3662
+ "epoch": 0.9267857142857143,
3663
+ "grad_norm": 0.24126453697681427,
3664
+ "learning_rate": 2.7297711931358993e-06,
3665
+ "loss": 1.0048,
3666
+ "step": 519
3667
+ },
3668
+ {
3669
+ "epoch": 0.9285714285714286,
3670
+ "grad_norm": 0.3192795515060425,
3671
+ "learning_rate": 2.5988083057666533e-06,
3672
+ "loss": 1.4609,
3673
+ "step": 520
3674
+ },
3675
+ {
3676
+ "epoch": 0.9303571428571429,
3677
+ "grad_norm": 0.2680839002132416,
3678
+ "learning_rate": 2.471023298121422e-06,
3679
+ "loss": 1.4287,
3680
+ "step": 521
3681
+ },
3682
+ {
3683
+ "epoch": 0.9321428571428572,
3684
+ "grad_norm": 0.34683963656425476,
3685
+ "learning_rate": 2.3464203394036322e-06,
3686
+ "loss": 1.1019,
3687
+ "step": 522
3688
+ },
3689
+ {
3690
+ "epoch": 0.9339285714285714,
3691
+ "grad_norm": 0.31293728947639465,
3692
+ "learning_rate": 2.2250034949969913e-06,
3693
+ "loss": 1.5812,
3694
+ "step": 523
3695
+ },
3696
+ {
3697
+ "epoch": 0.9357142857142857,
3698
+ "grad_norm": 0.27005112171173096,
3699
+ "learning_rate": 2.1067767263327933e-06,
3700
+ "loss": 0.8701,
3701
+ "step": 524
3702
+ },
3703
+ {
3704
+ "epoch": 0.9375,
3705
+ "grad_norm": 0.2739523649215698,
3706
+ "learning_rate": 1.9917438907606556e-06,
3707
+ "loss": 1.1165,
3708
+ "step": 525
3709
+ },
3710
+ {
3711
+ "epoch": 0.9392857142857143,
3712
+ "grad_norm": 0.2776015102863312,
3713
+ "learning_rate": 1.87990874142272e-06,
3714
+ "loss": 1.1448,
3715
+ "step": 526
3716
+ },
3717
+ {
3718
+ "epoch": 0.9410714285714286,
3719
+ "grad_norm": 0.30518367886543274,
3720
+ "learning_rate": 1.771274927131139e-06,
3721
+ "loss": 1.0695,
3722
+ "step": 527
3723
+ },
3724
+ {
3725
+ "epoch": 0.9428571428571428,
3726
+ "grad_norm": 0.31975796818733215,
3727
+ "learning_rate": 1.665845992249071e-06,
3728
+ "loss": 1.1755,
3729
+ "step": 528
3730
+ },
3731
+ {
3732
+ "epoch": 0.9446428571428571,
3733
+ "grad_norm": 0.3304663598537445,
3734
+ "learning_rate": 1.5636253765750508e-06,
3735
+ "loss": 1.0217,
3736
+ "step": 529
3737
+ },
3738
+ {
3739
+ "epoch": 0.9464285714285714,
3740
+ "grad_norm": 0.3353167474269867,
3741
+ "learning_rate": 1.4646164152307018e-06,
3742
+ "loss": 1.2216,
3743
+ "step": 530
3744
+ },
3745
+ {
3746
+ "epoch": 0.9482142857142857,
3747
+ "grad_norm": 0.3266999423503876,
3748
+ "learning_rate": 1.3688223385519672e-06,
3749
+ "loss": 0.8658,
3750
+ "step": 531
3751
+ },
3752
+ {
3753
+ "epoch": 0.95,
3754
+ "grad_norm": 0.34619686007499695,
3755
+ "learning_rate": 1.2762462719837275e-06,
3756
+ "loss": 1.2839,
3757
+ "step": 532
3758
+ },
3759
+ {
3760
+ "epoch": 0.9517857142857142,
3761
+ "grad_norm": 0.32094186544418335,
3762
+ "learning_rate": 1.1868912359777607e-06,
3763
+ "loss": 1.1571,
3764
+ "step": 533
3765
+ },
3766
+ {
3767
+ "epoch": 0.9535714285714286,
3768
+ "grad_norm": 0.33895429968833923,
3769
+ "learning_rate": 1.1007601458942752e-06,
3770
+ "loss": 1.0222,
3771
+ "step": 534
3772
+ },
3773
+ {
3774
+ "epoch": 0.9553571428571429,
3775
+ "grad_norm": 0.34143325686454773,
3776
+ "learning_rate": 1.0178558119067315e-06,
3777
+ "loss": 0.9386,
3778
+ "step": 535
3779
+ },
3780
+ {
3781
+ "epoch": 0.9571428571428572,
3782
+ "grad_norm": 0.3505565822124481,
3783
+ "learning_rate": 9.381809389101825e-07,
3784
+ "loss": 1.1175,
3785
+ "step": 536
3786
+ },
3787
+ {
3788
+ "epoch": 0.9589285714285715,
3789
+ "grad_norm": 0.36876025795936584,
3790
+ "learning_rate": 8.617381264330426e-07,
3791
+ "loss": 1.0065,
3792
+ "step": 537
3793
+ },
3794
+ {
3795
+ "epoch": 0.9607142857142857,
3796
+ "grad_norm": 0.3824593722820282,
3797
+ "learning_rate": 7.885298685522235e-07,
3798
+ "loss": 1.1445,
3799
+ "step": 538
3800
+ },
3801
+ {
3802
+ "epoch": 0.9625,
3803
+ "grad_norm": 0.3944648504257202,
3804
+ "learning_rate": 7.185585538117657e-07,
3805
+ "loss": 0.9773,
3806
+ "step": 539
3807
+ },
3808
+ {
3809
+ "epoch": 0.9642857142857143,
3810
+ "grad_norm": 0.32271888852119446,
3811
+ "learning_rate": 6.518264651449779e-07,
3812
+ "loss": 1.073,
3813
+ "step": 540
3814
+ },
3815
+ {
3816
+ "epoch": 0.9660714285714286,
3817
+ "grad_norm": 0.36668431758880615,
3818
+ "learning_rate": 5.883357797998757e-07,
3819
+ "loss": 1.3001,
3820
+ "step": 541
3821
+ },
3822
+ {
3823
+ "epoch": 0.9678571428571429,
3824
+ "grad_norm": 0.36653202772140503,
3825
+ "learning_rate": 5.280885692681592e-07,
3826
+ "loss": 1.0388,
3827
+ "step": 542
3828
+ },
3829
+ {
3830
+ "epoch": 0.9696428571428571,
3831
+ "grad_norm": 0.3570370674133301,
3832
+ "learning_rate": 4.710867992176682e-07,
3833
+ "loss": 1.0728,
3834
+ "step": 543
3835
+ },
3836
+ {
3837
+ "epoch": 0.9714285714285714,
3838
+ "grad_norm": 0.3680841624736786,
3839
+ "learning_rate": 4.173323294281994e-07,
3840
+ "loss": 1.3424,
3841
+ "step": 544
3842
+ },
3843
+ {
3844
+ "epoch": 0.9732142857142857,
3845
+ "grad_norm": 0.37311863899230957,
3846
+ "learning_rate": 3.6682691373086665e-07,
3847
+ "loss": 1.3634,
3848
+ "step": 545
3849
+ },
3850
+ {
3851
+ "epoch": 0.975,
3852
+ "grad_norm": 0.38995441794395447,
3853
+ "learning_rate": 3.195721999508461e-07,
3854
+ "loss": 1.4773,
3855
+ "step": 546
3856
+ },
3857
+ {
3858
+ "epoch": 0.9767857142857143,
3859
+ "grad_norm": 0.3970450162887573,
3860
+ "learning_rate": 2.7556972985363085e-07,
3861
+ "loss": 1.3839,
3862
+ "step": 547
3863
+ },
3864
+ {
3865
+ "epoch": 0.9785714285714285,
3866
+ "grad_norm": 0.5267580151557922,
3867
+ "learning_rate": 2.3482093909473756e-07,
3868
+ "loss": 1.9768,
3869
+ "step": 548
3870
+ },
3871
+ {
3872
+ "epoch": 0.9803571428571428,
3873
+ "grad_norm": 0.4860612154006958,
3874
+ "learning_rate": 1.973271571728441e-07,
3875
+ "loss": 1.7893,
3876
+ "step": 549
3877
+ },
3878
+ {
3879
+ "epoch": 0.9821428571428571,
3880
+ "grad_norm": 0.9272521734237671,
3881
+ "learning_rate": 1.630896073864352e-07,
3882
+ "loss": 2.1017,
3883
+ "step": 550
3884
+ },
3885
+ {
3886
+ "epoch": 0.9839285714285714,
3887
+ "grad_norm": 0.19919352233409882,
3888
+ "learning_rate": 1.3210940679385664e-07,
3889
+ "loss": 1.5237,
3890
+ "step": 551
3891
+ },
3892
+ {
3893
+ "epoch": 0.9857142857142858,
3894
+ "grad_norm": 0.20294204354286194,
3895
+ "learning_rate": 1.0438756617691115e-07,
3896
+ "loss": 1.597,
3897
+ "step": 552
3898
+ },
3899
+ {
3900
+ "epoch": 0.9875,
3901
+ "grad_norm": 0.2281683087348938,
3902
+ "learning_rate": 7.992499000785136e-08,
3903
+ "loss": 1.7265,
3904
+ "step": 553
3905
+ },
3906
+ {
3907
+ "epoch": 0.9892857142857143,
3908
+ "grad_norm": 0.2398226112127304,
3909
+ "learning_rate": 5.872247641987016e-08,
3910
+ "loss": 1.7301,
3911
+ "step": 554
3912
+ },
3913
+ {
3914
+ "epoch": 0.9910714285714286,
3915
+ "grad_norm": 0.2581394612789154,
3916
+ "learning_rate": 4.078071718107701e-08,
3917
+ "loss": 1.6294,
3918
+ "step": 555
3919
+ },
3920
+ {
3921
+ "epoch": 0.9928571428571429,
3922
+ "grad_norm": 0.2676229774951935,
3923
+ "learning_rate": 2.610029767191602e-08,
3924
+ "loss": 0.9741,
3925
+ "step": 556
3926
+ },
3927
+ {
3928
+ "epoch": 0.9946428571428572,
3929
+ "grad_norm": 0.30877920985221863,
3930
+ "learning_rate": 1.4681696866081229e-08,
3931
+ "loss": 1.1485,
3932
+ "step": 557
3933
+ },
3934
+ {
3935
+ "epoch": 0.9964285714285714,
3936
+ "grad_norm": 0.3330385386943817,
3937
+ "learning_rate": 6.525287314851358e-09,
3938
+ "loss": 0.906,
3939
+ "step": 558
3940
+ },
3941
+ {
3942
+ "epoch": 0.9982142857142857,
3943
+ "grad_norm": 0.364859402179718,
3944
+ "learning_rate": 1.6313351349883655e-09,
3945
+ "loss": 1.0913,
3946
+ "step": 559
3947
+ },
3948
+ {
3949
+ "epoch": 1.0,
3950
+ "grad_norm": 0.5055291652679443,
3951
+ "learning_rate": 0.0,
3952
+ "loss": 1.6353,
3953
+ "step": 560
3954
+ },
3955
+ {
3956
+ "epoch": 1.0,
3957
+ "eval_loss": 1.4418776035308838,
3958
+ "eval_runtime": 13.3713,
3959
+ "eval_samples_per_second": 17.65,
3960
+ "eval_steps_per_second": 8.825,
3961
+ "step": 560
3962
  }
3963
  ],
3964
  "logging_steps": 1,
 
3973
  "should_evaluate": false,
3974
  "should_log": false,
3975
  "should_save": true,
3976
+ "should_training_stop": true
3977
  },
3978
  "attributes": {}
3979
  }
3980
  },
3981
+ "total_flos": 1.826642274948219e+17,
3982
  "train_batch_size": 2,
3983
  "trial_name": null,
3984
  "trial_params": null