jdannem6 commited on
Commit
810ace8
1 Parent(s): 239714f

Uploaded checkpoint-5000

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2d4eb90551ea9a47650c616fefa08bde3498e3b4acb5a14595ee91277392353d
3
  size 119975656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4a880f49b9787f64eb5d7ff72bb29ba9d92ead73940dc5681f0fb29c8cb34311
3
  size 119975656
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d5420133932cd8928dc252e0240f1238ce1a1686b581743ea2e0e35fe0975cd0
3
  size 240145026
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6266c9de49bfb2d148e132d08a28031ceb1613d7b38c9b2607f9e235fa8597d0
3
  size 240145026
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b90bc42e5601a089b4f97e9c36e907416b25c070b74e200626385618b0995aae
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:af4fc59c67c352cae63c079b9681492ee5f0d6b4b95d053649ba31a9ffec9bc2
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.018313532695174217,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240423-133229/checkpoint-2000",
4
- "epoch": 1.2532309861361322,
5
  "eval_steps": 500,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2871,6 +2871,722 @@
2871
  "eval_samples_per_second": 16.104,
2872
  "eval_steps_per_second": 16.104,
2873
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2874
  }
2875
  ],
2876
  "logging_steps": 10,
@@ -2878,7 +3594,7 @@
2878
  "num_input_tokens_seen": 0,
2879
  "num_train_epochs": 2,
2880
  "save_steps": 1000,
2881
- "total_flos": 6.4408503975936e+16,
2882
  "train_batch_size": 1,
2883
  "trial_name": null,
2884
  "trial_params": null
 
1
  {
2
  "best_metric": 0.018313532695174217,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240423-133229/checkpoint-2000",
4
+ "epoch": 1.5665387326701654,
5
  "eval_steps": 500,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2871
  "eval_samples_per_second": 16.104,
2872
  "eval_steps_per_second": 16.104,
2873
  "step": 4000
2874
+ },
2875
+ {
2876
+ "epoch": 1.26,
2877
+ "grad_norm": 0.0018766351277008653,
2878
+ "learning_rate": 4.4e-06,
2879
+ "loss": 0.0521,
2880
+ "step": 4010
2881
+ },
2882
+ {
2883
+ "epoch": 1.26,
2884
+ "grad_norm": 0.39914241433143616,
2885
+ "learning_rate": 4.3555555555555555e-06,
2886
+ "loss": 0.0195,
2887
+ "step": 4020
2888
+ },
2889
+ {
2890
+ "epoch": 1.26,
2891
+ "grad_norm": 4.4533562660217285,
2892
+ "learning_rate": 4.3111111111111115e-06,
2893
+ "loss": 0.0588,
2894
+ "step": 4030
2895
+ },
2896
+ {
2897
+ "epoch": 1.27,
2898
+ "grad_norm": 0.0005871405592188239,
2899
+ "learning_rate": 4.266666666666668e-06,
2900
+ "loss": 0.0162,
2901
+ "step": 4040
2902
+ },
2903
+ {
2904
+ "epoch": 1.27,
2905
+ "grad_norm": 0.0015552936820313334,
2906
+ "learning_rate": 4.222222222222223e-06,
2907
+ "loss": 0.1069,
2908
+ "step": 4050
2909
+ },
2910
+ {
2911
+ "epoch": 1.27,
2912
+ "grad_norm": 3.2195968627929688,
2913
+ "learning_rate": 4.177777777777778e-06,
2914
+ "loss": 0.0274,
2915
+ "step": 4060
2916
+ },
2917
+ {
2918
+ "epoch": 1.28,
2919
+ "grad_norm": 0.004314718768000603,
2920
+ "learning_rate": 4.133333333333333e-06,
2921
+ "loss": 0.0057,
2922
+ "step": 4070
2923
+ },
2924
+ {
2925
+ "epoch": 1.28,
2926
+ "grad_norm": 1.0093330144882202,
2927
+ "learning_rate": 4.088888888888889e-06,
2928
+ "loss": 0.0325,
2929
+ "step": 4080
2930
+ },
2931
+ {
2932
+ "epoch": 1.28,
2933
+ "grad_norm": 0.0012565231882035732,
2934
+ "learning_rate": 4.044444444444445e-06,
2935
+ "loss": 0.0296,
2936
+ "step": 4090
2937
+ },
2938
+ {
2939
+ "epoch": 1.28,
2940
+ "grad_norm": 0.032142095267772675,
2941
+ "learning_rate": 4.000000000000001e-06,
2942
+ "loss": 0.0341,
2943
+ "step": 4100
2944
+ },
2945
+ {
2946
+ "epoch": 1.29,
2947
+ "grad_norm": 0.0013831367250531912,
2948
+ "learning_rate": 3.955555555555556e-06,
2949
+ "loss": 0.0149,
2950
+ "step": 4110
2951
+ },
2952
+ {
2953
+ "epoch": 1.29,
2954
+ "grad_norm": 2.502413511276245,
2955
+ "learning_rate": 3.911111111111112e-06,
2956
+ "loss": 0.0599,
2957
+ "step": 4120
2958
+ },
2959
+ {
2960
+ "epoch": 1.29,
2961
+ "grad_norm": 2.310913562774658,
2962
+ "learning_rate": 3.866666666666667e-06,
2963
+ "loss": 0.0421,
2964
+ "step": 4130
2965
+ },
2966
+ {
2967
+ "epoch": 1.3,
2968
+ "grad_norm": 0.06956034153699875,
2969
+ "learning_rate": 3.8222222222222224e-06,
2970
+ "loss": 0.0155,
2971
+ "step": 4140
2972
+ },
2973
+ {
2974
+ "epoch": 1.3,
2975
+ "grad_norm": 0.0008762804791331291,
2976
+ "learning_rate": 3.777777777777778e-06,
2977
+ "loss": 0.0559,
2978
+ "step": 4150
2979
+ },
2980
+ {
2981
+ "epoch": 1.3,
2982
+ "grad_norm": 2.245699167251587,
2983
+ "learning_rate": 3.7333333333333337e-06,
2984
+ "loss": 0.0407,
2985
+ "step": 4160
2986
+ },
2987
+ {
2988
+ "epoch": 1.31,
2989
+ "grad_norm": 2.3646597862243652,
2990
+ "learning_rate": 3.688888888888889e-06,
2991
+ "loss": 0.0283,
2992
+ "step": 4170
2993
+ },
2994
+ {
2995
+ "epoch": 1.31,
2996
+ "grad_norm": 0.0010521197691559792,
2997
+ "learning_rate": 3.644444444444445e-06,
2998
+ "loss": 0.018,
2999
+ "step": 4180
3000
+ },
3001
+ {
3002
+ "epoch": 1.31,
3003
+ "grad_norm": 0.0006315945065580308,
3004
+ "learning_rate": 3.6000000000000003e-06,
3005
+ "loss": 0.006,
3006
+ "step": 4190
3007
+ },
3008
+ {
3009
+ "epoch": 1.32,
3010
+ "grad_norm": 0.000512352678924799,
3011
+ "learning_rate": 3.555555555555556e-06,
3012
+ "loss": 0.0065,
3013
+ "step": 4200
3014
+ },
3015
+ {
3016
+ "epoch": 1.32,
3017
+ "grad_norm": 2.3170325756073,
3018
+ "learning_rate": 3.511111111111111e-06,
3019
+ "loss": 0.017,
3020
+ "step": 4210
3021
+ },
3022
+ {
3023
+ "epoch": 1.32,
3024
+ "grad_norm": 0.004807967692613602,
3025
+ "learning_rate": 3.4666666666666672e-06,
3026
+ "loss": 0.0202,
3027
+ "step": 4220
3028
+ },
3029
+ {
3030
+ "epoch": 1.33,
3031
+ "grad_norm": 0.0015995922731235623,
3032
+ "learning_rate": 3.4222222222222224e-06,
3033
+ "loss": 0.0436,
3034
+ "step": 4230
3035
+ },
3036
+ {
3037
+ "epoch": 1.33,
3038
+ "grad_norm": 0.0005936655215919018,
3039
+ "learning_rate": 3.377777777777778e-06,
3040
+ "loss": 0.0169,
3041
+ "step": 4240
3042
+ },
3043
+ {
3044
+ "epoch": 1.33,
3045
+ "grad_norm": 0.0005440403474494815,
3046
+ "learning_rate": 3.3333333333333333e-06,
3047
+ "loss": 0.0172,
3048
+ "step": 4250
3049
+ },
3050
+ {
3051
+ "epoch": 1.33,
3052
+ "grad_norm": 0.0013694684021174908,
3053
+ "learning_rate": 3.2888888888888894e-06,
3054
+ "loss": 0.0129,
3055
+ "step": 4260
3056
+ },
3057
+ {
3058
+ "epoch": 1.34,
3059
+ "grad_norm": 0.0017236489802598953,
3060
+ "learning_rate": 3.2444444444444446e-06,
3061
+ "loss": 0.0349,
3062
+ "step": 4270
3063
+ },
3064
+ {
3065
+ "epoch": 1.34,
3066
+ "grad_norm": 2.429488182067871,
3067
+ "learning_rate": 3.2000000000000003e-06,
3068
+ "loss": 0.1352,
3069
+ "step": 4280
3070
+ },
3071
+ {
3072
+ "epoch": 1.34,
3073
+ "grad_norm": 0.0007962828385643661,
3074
+ "learning_rate": 3.1555555555555555e-06,
3075
+ "loss": 0.0051,
3076
+ "step": 4290
3077
+ },
3078
+ {
3079
+ "epoch": 1.35,
3080
+ "grad_norm": 0.0005601115408353508,
3081
+ "learning_rate": 3.1111111111111116e-06,
3082
+ "loss": 0.0091,
3083
+ "step": 4300
3084
+ },
3085
+ {
3086
+ "epoch": 1.35,
3087
+ "grad_norm": 0.0022927261888980865,
3088
+ "learning_rate": 3.066666666666667e-06,
3089
+ "loss": 0.0208,
3090
+ "step": 4310
3091
+ },
3092
+ {
3093
+ "epoch": 1.35,
3094
+ "grad_norm": 0.00264713354408741,
3095
+ "learning_rate": 3.0222222222222225e-06,
3096
+ "loss": 0.0445,
3097
+ "step": 4320
3098
+ },
3099
+ {
3100
+ "epoch": 1.36,
3101
+ "grad_norm": 0.0009310416062362492,
3102
+ "learning_rate": 2.9777777777777777e-06,
3103
+ "loss": 0.0295,
3104
+ "step": 4330
3105
+ },
3106
+ {
3107
+ "epoch": 1.36,
3108
+ "grad_norm": 0.0005691644619219005,
3109
+ "learning_rate": 2.9333333333333338e-06,
3110
+ "loss": 0.0497,
3111
+ "step": 4340
3112
+ },
3113
+ {
3114
+ "epoch": 1.36,
3115
+ "grad_norm": 0.0012022920418530703,
3116
+ "learning_rate": 2.888888888888889e-06,
3117
+ "loss": 0.04,
3118
+ "step": 4350
3119
+ },
3120
+ {
3121
+ "epoch": 1.37,
3122
+ "grad_norm": 1.9444104433059692,
3123
+ "learning_rate": 2.8444444444444446e-06,
3124
+ "loss": 0.063,
3125
+ "step": 4360
3126
+ },
3127
+ {
3128
+ "epoch": 1.37,
3129
+ "grad_norm": 3.8922362327575684,
3130
+ "learning_rate": 2.8000000000000003e-06,
3131
+ "loss": 0.0319,
3132
+ "step": 4370
3133
+ },
3134
+ {
3135
+ "epoch": 1.37,
3136
+ "grad_norm": 1.2501660585403442,
3137
+ "learning_rate": 2.755555555555556e-06,
3138
+ "loss": 0.0716,
3139
+ "step": 4380
3140
+ },
3141
+ {
3142
+ "epoch": 1.38,
3143
+ "grad_norm": 0.014218101277947426,
3144
+ "learning_rate": 2.7111111111111116e-06,
3145
+ "loss": 0.0219,
3146
+ "step": 4390
3147
+ },
3148
+ {
3149
+ "epoch": 1.38,
3150
+ "grad_norm": 0.16711218655109406,
3151
+ "learning_rate": 2.666666666666667e-06,
3152
+ "loss": 0.0356,
3153
+ "step": 4400
3154
+ },
3155
+ {
3156
+ "epoch": 1.38,
3157
+ "grad_norm": 0.0005462172557599843,
3158
+ "learning_rate": 2.6222222222222225e-06,
3159
+ "loss": 0.0503,
3160
+ "step": 4410
3161
+ },
3162
+ {
3163
+ "epoch": 1.38,
3164
+ "grad_norm": 1.2715685367584229,
3165
+ "learning_rate": 2.577777777777778e-06,
3166
+ "loss": 0.0282,
3167
+ "step": 4420
3168
+ },
3169
+ {
3170
+ "epoch": 1.39,
3171
+ "grad_norm": 0.0005375253385864198,
3172
+ "learning_rate": 2.5333333333333338e-06,
3173
+ "loss": 0.0346,
3174
+ "step": 4430
3175
+ },
3176
+ {
3177
+ "epoch": 1.39,
3178
+ "grad_norm": 0.5777830481529236,
3179
+ "learning_rate": 2.488888888888889e-06,
3180
+ "loss": 0.061,
3181
+ "step": 4440
3182
+ },
3183
+ {
3184
+ "epoch": 1.39,
3185
+ "grad_norm": 0.00046264228876680136,
3186
+ "learning_rate": 2.4444444444444447e-06,
3187
+ "loss": 0.0445,
3188
+ "step": 4450
3189
+ },
3190
+ {
3191
+ "epoch": 1.4,
3192
+ "grad_norm": 0.0011936473893001676,
3193
+ "learning_rate": 2.4000000000000003e-06,
3194
+ "loss": 0.0251,
3195
+ "step": 4460
3196
+ },
3197
+ {
3198
+ "epoch": 1.4,
3199
+ "grad_norm": 1.0460318326950073,
3200
+ "learning_rate": 2.3555555555555555e-06,
3201
+ "loss": 0.0409,
3202
+ "step": 4470
3203
+ },
3204
+ {
3205
+ "epoch": 1.4,
3206
+ "grad_norm": 1.9569495916366577,
3207
+ "learning_rate": 2.311111111111111e-06,
3208
+ "loss": 0.026,
3209
+ "step": 4480
3210
+ },
3211
+ {
3212
+ "epoch": 1.41,
3213
+ "grad_norm": 0.012949565425515175,
3214
+ "learning_rate": 2.266666666666667e-06,
3215
+ "loss": 0.0183,
3216
+ "step": 4490
3217
+ },
3218
+ {
3219
+ "epoch": 1.41,
3220
+ "grad_norm": 0.0013554710894823074,
3221
+ "learning_rate": 2.222222222222222e-06,
3222
+ "loss": 0.0162,
3223
+ "step": 4500
3224
+ },
3225
+ {
3226
+ "epoch": 1.41,
3227
+ "eval_loss": 0.017521824687719345,
3228
+ "eval_runtime": 62.0307,
3229
+ "eval_samples_per_second": 16.121,
3230
+ "eval_steps_per_second": 16.121,
3231
+ "step": 4500
3232
+ },
3233
+ {
3234
+ "epoch": 1.41,
3235
+ "grad_norm": 0.001089457655325532,
3236
+ "learning_rate": 2.1777777777777777e-06,
3237
+ "loss": 0.0229,
3238
+ "step": 4510
3239
+ },
3240
+ {
3241
+ "epoch": 1.42,
3242
+ "grad_norm": 0.5206069350242615,
3243
+ "learning_rate": 2.133333333333334e-06,
3244
+ "loss": 0.03,
3245
+ "step": 4520
3246
+ },
3247
+ {
3248
+ "epoch": 1.42,
3249
+ "grad_norm": 0.0005083256983198225,
3250
+ "learning_rate": 2.088888888888889e-06,
3251
+ "loss": 0.0328,
3252
+ "step": 4530
3253
+ },
3254
+ {
3255
+ "epoch": 1.42,
3256
+ "grad_norm": 0.0009927984792739153,
3257
+ "learning_rate": 2.0444444444444447e-06,
3258
+ "loss": 0.0095,
3259
+ "step": 4540
3260
+ },
3261
+ {
3262
+ "epoch": 1.43,
3263
+ "grad_norm": 0.0006405860185623169,
3264
+ "learning_rate": 2.0000000000000003e-06,
3265
+ "loss": 0.009,
3266
+ "step": 4550
3267
+ },
3268
+ {
3269
+ "epoch": 1.43,
3270
+ "grad_norm": 0.0009081049938686192,
3271
+ "learning_rate": 1.955555555555556e-06,
3272
+ "loss": 0.0086,
3273
+ "step": 4560
3274
+ },
3275
+ {
3276
+ "epoch": 1.43,
3277
+ "grad_norm": 0.0004944841493852437,
3278
+ "learning_rate": 1.9111111111111112e-06,
3279
+ "loss": 0.0028,
3280
+ "step": 4570
3281
+ },
3282
+ {
3283
+ "epoch": 1.43,
3284
+ "grad_norm": 0.0010713768424466252,
3285
+ "learning_rate": 1.8666666666666669e-06,
3286
+ "loss": 0.0038,
3287
+ "step": 4580
3288
+ },
3289
+ {
3290
+ "epoch": 1.44,
3291
+ "grad_norm": 0.0013352985261008143,
3292
+ "learning_rate": 1.8222222222222225e-06,
3293
+ "loss": 0.0517,
3294
+ "step": 4590
3295
+ },
3296
+ {
3297
+ "epoch": 1.44,
3298
+ "grad_norm": 0.0011882871622219682,
3299
+ "learning_rate": 1.777777777777778e-06,
3300
+ "loss": 0.0344,
3301
+ "step": 4600
3302
+ },
3303
+ {
3304
+ "epoch": 1.44,
3305
+ "grad_norm": 0.0005185340996831656,
3306
+ "learning_rate": 1.7333333333333336e-06,
3307
+ "loss": 0.0219,
3308
+ "step": 4610
3309
+ },
3310
+ {
3311
+ "epoch": 1.45,
3312
+ "grad_norm": 0.0005603168392553926,
3313
+ "learning_rate": 1.688888888888889e-06,
3314
+ "loss": 0.0306,
3315
+ "step": 4620
3316
+ },
3317
+ {
3318
+ "epoch": 1.45,
3319
+ "grad_norm": 2.2889089584350586,
3320
+ "learning_rate": 1.6444444444444447e-06,
3321
+ "loss": 0.0619,
3322
+ "step": 4630
3323
+ },
3324
+ {
3325
+ "epoch": 1.45,
3326
+ "grad_norm": 0.0005399343208409846,
3327
+ "learning_rate": 1.6000000000000001e-06,
3328
+ "loss": 0.0001,
3329
+ "step": 4640
3330
+ },
3331
+ {
3332
+ "epoch": 1.46,
3333
+ "grad_norm": 1.3966524600982666,
3334
+ "learning_rate": 1.5555555555555558e-06,
3335
+ "loss": 0.0329,
3336
+ "step": 4650
3337
+ },
3338
+ {
3339
+ "epoch": 1.46,
3340
+ "grad_norm": 0.1912785768508911,
3341
+ "learning_rate": 1.5111111111111112e-06,
3342
+ "loss": 0.0926,
3343
+ "step": 4660
3344
+ },
3345
+ {
3346
+ "epoch": 1.46,
3347
+ "grad_norm": 0.0009074648842215538,
3348
+ "learning_rate": 1.4666666666666669e-06,
3349
+ "loss": 0.0123,
3350
+ "step": 4670
3351
+ },
3352
+ {
3353
+ "epoch": 1.47,
3354
+ "grad_norm": 0.0007042177603580058,
3355
+ "learning_rate": 1.4222222222222223e-06,
3356
+ "loss": 0.0029,
3357
+ "step": 4680
3358
+ },
3359
+ {
3360
+ "epoch": 1.47,
3361
+ "grad_norm": 1.4998135566711426,
3362
+ "learning_rate": 1.377777777777778e-06,
3363
+ "loss": 0.0635,
3364
+ "step": 4690
3365
+ },
3366
+ {
3367
+ "epoch": 1.47,
3368
+ "grad_norm": 0.7605366110801697,
3369
+ "learning_rate": 1.3333333333333334e-06,
3370
+ "loss": 0.0085,
3371
+ "step": 4700
3372
+ },
3373
+ {
3374
+ "epoch": 1.48,
3375
+ "grad_norm": 0.0010083210654556751,
3376
+ "learning_rate": 1.288888888888889e-06,
3377
+ "loss": 0.0116,
3378
+ "step": 4710
3379
+ },
3380
+ {
3381
+ "epoch": 1.48,
3382
+ "grad_norm": 0.0018564054043963552,
3383
+ "learning_rate": 1.2444444444444445e-06,
3384
+ "loss": 0.0156,
3385
+ "step": 4720
3386
+ },
3387
+ {
3388
+ "epoch": 1.48,
3389
+ "grad_norm": 0.5900565981864929,
3390
+ "learning_rate": 1.2000000000000002e-06,
3391
+ "loss": 0.0436,
3392
+ "step": 4730
3393
+ },
3394
+ {
3395
+ "epoch": 1.49,
3396
+ "grad_norm": 1.9675027132034302,
3397
+ "learning_rate": 1.1555555555555556e-06,
3398
+ "loss": 0.0535,
3399
+ "step": 4740
3400
+ },
3401
+ {
3402
+ "epoch": 1.49,
3403
+ "grad_norm": 0.0011088999453932047,
3404
+ "learning_rate": 1.111111111111111e-06,
3405
+ "loss": 0.053,
3406
+ "step": 4750
3407
+ },
3408
+ {
3409
+ "epoch": 1.49,
3410
+ "grad_norm": 0.0014372550649568439,
3411
+ "learning_rate": 1.066666666666667e-06,
3412
+ "loss": 0.0047,
3413
+ "step": 4760
3414
+ },
3415
+ {
3416
+ "epoch": 1.49,
3417
+ "grad_norm": 0.9269665479660034,
3418
+ "learning_rate": 1.0222222222222223e-06,
3419
+ "loss": 0.0416,
3420
+ "step": 4770
3421
+ },
3422
+ {
3423
+ "epoch": 1.5,
3424
+ "grad_norm": 0.0020348341204226017,
3425
+ "learning_rate": 9.77777777777778e-07,
3426
+ "loss": 0.059,
3427
+ "step": 4780
3428
+ },
3429
+ {
3430
+ "epoch": 1.5,
3431
+ "grad_norm": 0.0013614660128951073,
3432
+ "learning_rate": 9.333333333333334e-07,
3433
+ "loss": 0.0377,
3434
+ "step": 4790
3435
+ },
3436
+ {
3437
+ "epoch": 1.5,
3438
+ "grad_norm": 2.781449556350708,
3439
+ "learning_rate": 8.88888888888889e-07,
3440
+ "loss": 0.1254,
3441
+ "step": 4800
3442
+ },
3443
+ {
3444
+ "epoch": 1.51,
3445
+ "grad_norm": 0.0010429318062961102,
3446
+ "learning_rate": 8.444444444444445e-07,
3447
+ "loss": 0.0064,
3448
+ "step": 4810
3449
+ },
3450
+ {
3451
+ "epoch": 1.51,
3452
+ "grad_norm": 0.0012540715979412198,
3453
+ "learning_rate": 8.000000000000001e-07,
3454
+ "loss": 0.049,
3455
+ "step": 4820
3456
+ },
3457
+ {
3458
+ "epoch": 1.51,
3459
+ "grad_norm": 2.989722967147827,
3460
+ "learning_rate": 7.555555555555556e-07,
3461
+ "loss": 0.0596,
3462
+ "step": 4830
3463
+ },
3464
+ {
3465
+ "epoch": 1.52,
3466
+ "grad_norm": 0.08106524497270584,
3467
+ "learning_rate": 7.111111111111112e-07,
3468
+ "loss": 0.0123,
3469
+ "step": 4840
3470
+ },
3471
+ {
3472
+ "epoch": 1.52,
3473
+ "grad_norm": 0.003921021707355976,
3474
+ "learning_rate": 6.666666666666667e-07,
3475
+ "loss": 0.0313,
3476
+ "step": 4850
3477
+ },
3478
+ {
3479
+ "epoch": 1.52,
3480
+ "grad_norm": 0.0006887316121719778,
3481
+ "learning_rate": 6.222222222222223e-07,
3482
+ "loss": 0.0162,
3483
+ "step": 4860
3484
+ },
3485
+ {
3486
+ "epoch": 1.53,
3487
+ "grad_norm": 0.0005608502542600036,
3488
+ "learning_rate": 5.777777777777778e-07,
3489
+ "loss": 0.0579,
3490
+ "step": 4870
3491
+ },
3492
+ {
3493
+ "epoch": 1.53,
3494
+ "grad_norm": 0.7983081936836243,
3495
+ "learning_rate": 5.333333333333335e-07,
3496
+ "loss": 0.0205,
3497
+ "step": 4880
3498
+ },
3499
+ {
3500
+ "epoch": 1.53,
3501
+ "grad_norm": 4.0297722816467285,
3502
+ "learning_rate": 4.88888888888889e-07,
3503
+ "loss": 0.0413,
3504
+ "step": 4890
3505
+ },
3506
+ {
3507
+ "epoch": 1.54,
3508
+ "grad_norm": 0.0005954677471891046,
3509
+ "learning_rate": 4.444444444444445e-07,
3510
+ "loss": 0.0443,
3511
+ "step": 4900
3512
+ },
3513
+ {
3514
+ "epoch": 1.54,
3515
+ "grad_norm": 0.0008567142067477107,
3516
+ "learning_rate": 4.0000000000000003e-07,
3517
+ "loss": 0.0918,
3518
+ "step": 4910
3519
+ },
3520
+ {
3521
+ "epoch": 1.54,
3522
+ "grad_norm": 0.0158186424523592,
3523
+ "learning_rate": 3.555555555555556e-07,
3524
+ "loss": 0.0117,
3525
+ "step": 4920
3526
+ },
3527
+ {
3528
+ "epoch": 1.54,
3529
+ "grad_norm": 0.0005192561075091362,
3530
+ "learning_rate": 3.111111111111111e-07,
3531
+ "loss": 0.0367,
3532
+ "step": 4930
3533
+ },
3534
+ {
3535
+ "epoch": 1.55,
3536
+ "grad_norm": 0.0007436941377818584,
3537
+ "learning_rate": 2.666666666666667e-07,
3538
+ "loss": 0.0103,
3539
+ "step": 4940
3540
+ },
3541
+ {
3542
+ "epoch": 1.55,
3543
+ "grad_norm": 0.0006840491550974548,
3544
+ "learning_rate": 2.2222222222222224e-07,
3545
+ "loss": 0.025,
3546
+ "step": 4950
3547
+ },
3548
+ {
3549
+ "epoch": 1.55,
3550
+ "grad_norm": 0.0011544113513082266,
3551
+ "learning_rate": 1.777777777777778e-07,
3552
+ "loss": 0.0408,
3553
+ "step": 4960
3554
+ },
3555
+ {
3556
+ "epoch": 1.56,
3557
+ "grad_norm": 0.0013330102665349841,
3558
+ "learning_rate": 1.3333333333333336e-07,
3559
+ "loss": 0.0468,
3560
+ "step": 4970
3561
+ },
3562
+ {
3563
+ "epoch": 1.56,
3564
+ "grad_norm": 0.0007117724744603038,
3565
+ "learning_rate": 8.88888888888889e-08,
3566
+ "loss": 0.0206,
3567
+ "step": 4980
3568
+ },
3569
+ {
3570
+ "epoch": 1.56,
3571
+ "grad_norm": 0.006810193415731192,
3572
+ "learning_rate": 4.444444444444445e-08,
3573
+ "loss": 0.0489,
3574
+ "step": 4990
3575
+ },
3576
+ {
3577
+ "epoch": 1.57,
3578
+ "grad_norm": 0.000949681329075247,
3579
+ "learning_rate": 0.0,
3580
+ "loss": 0.0389,
3581
+ "step": 5000
3582
+ },
3583
+ {
3584
+ "epoch": 1.57,
3585
+ "eval_loss": 0.02238212525844574,
3586
+ "eval_runtime": 62.0206,
3587
+ "eval_samples_per_second": 16.124,
3588
+ "eval_steps_per_second": 16.124,
3589
+ "step": 5000
3590
  }
3591
  ],
3592
  "logging_steps": 10,
 
3594
  "num_input_tokens_seen": 0,
3595
  "num_train_epochs": 2,
3596
  "save_steps": 1000,
3597
+ "total_flos": 8.051062996992e+16,
3598
  "train_batch_size": 1,
3599
  "trial_name": null,
3600
  "trial_params": null