UltimoUno commited on
Commit
feba5a3
1 Parent(s): 1e19262

Uploaded checkpoint-5000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:11b12a5db03b21601ef2fbf830ece39543cf496c2b384f79ea8cd1e13f05c681
3
  size 2692969128
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4d140c6a5fd0e6a420d01533a63679c0ba91e292e3f59614b27aca6eedf09f1e
3
  size 2692969128
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0bc7be545c71698aed05f3fc1be12a4ed5c0a5ce82ef2cdbed93d83ab3fd6e8
3
  size 5386075202
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9867b2e3def1ca7c140948427f730843b2d79132f56cd449e28c21e0bdcffb8a
3
  size 5386075202
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1c92a95a97d689d636b085d406167a1d143dce26fb83ee64d21cf4b37a120302
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4ce3f1fd7866b93bfea3f328fd35124d6c8818c1dd3b24d163380d4a576714e9
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.01529085636138916,
3
  "best_model_checkpoint": "runs/deepseek_CMU-AIR2/math-deepseek-FULL-ArithHard-30k_20240424-195522/checkpoint-3000",
4
- "epoch": 1.2532309861361322,
5
  "eval_steps": 1000,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2839,6 +2839,714 @@
2839
  "eval_samples_per_second": 18.667,
2840
  "eval_steps_per_second": 18.667,
2841
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2842
  }
2843
  ],
2844
  "logging_steps": 10,
@@ -2846,7 +3554,7 @@
2846
  "num_input_tokens_seen": 0,
2847
  "num_train_epochs": 2,
2848
  "save_steps": 1000,
2849
- "total_flos": 6.2934793322496e+16,
2850
  "train_batch_size": 1,
2851
  "trial_name": null,
2852
  "trial_params": null
 
1
  {
2
  "best_metric": 0.01529085636138916,
3
  "best_model_checkpoint": "runs/deepseek_CMU-AIR2/math-deepseek-FULL-ArithHard-30k_20240424-195522/checkpoint-3000",
4
+ "epoch": 1.5665387326701654,
5
  "eval_steps": 1000,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2839
  "eval_samples_per_second": 18.667,
2840
  "eval_steps_per_second": 18.667,
2841
  "step": 4000
2842
+ },
2843
+ {
2844
+ "epoch": 1.26,
2845
+ "grad_norm": 0.0050048828125,
2846
+ "learning_rate": 4.4e-06,
2847
+ "loss": 0.0287,
2848
+ "step": 4010
2849
+ },
2850
+ {
2851
+ "epoch": 1.26,
2852
+ "grad_norm": 0.84375,
2853
+ "learning_rate": 4.3555555555555555e-06,
2854
+ "loss": 0.018,
2855
+ "step": 4020
2856
+ },
2857
+ {
2858
+ "epoch": 1.26,
2859
+ "grad_norm": 30.75,
2860
+ "learning_rate": 4.3111111111111115e-06,
2861
+ "loss": 0.0626,
2862
+ "step": 4030
2863
+ },
2864
+ {
2865
+ "epoch": 1.27,
2866
+ "grad_norm": 0.00146484375,
2867
+ "learning_rate": 4.266666666666668e-06,
2868
+ "loss": 0.0084,
2869
+ "step": 4040
2870
+ },
2871
+ {
2872
+ "epoch": 1.27,
2873
+ "grad_norm": 0.004638671875,
2874
+ "learning_rate": 4.222222222222223e-06,
2875
+ "loss": 0.1006,
2876
+ "step": 4050
2877
+ },
2878
+ {
2879
+ "epoch": 1.27,
2880
+ "grad_norm": 4.875,
2881
+ "learning_rate": 4.177777777777778e-06,
2882
+ "loss": 0.0239,
2883
+ "step": 4060
2884
+ },
2885
+ {
2886
+ "epoch": 1.28,
2887
+ "grad_norm": 0.050537109375,
2888
+ "learning_rate": 4.133333333333333e-06,
2889
+ "loss": 0.0034,
2890
+ "step": 4070
2891
+ },
2892
+ {
2893
+ "epoch": 1.28,
2894
+ "grad_norm": 7.1875,
2895
+ "learning_rate": 4.088888888888889e-06,
2896
+ "loss": 0.0413,
2897
+ "step": 4080
2898
+ },
2899
+ {
2900
+ "epoch": 1.28,
2901
+ "grad_norm": 0.0019683837890625,
2902
+ "learning_rate": 4.044444444444445e-06,
2903
+ "loss": 0.0236,
2904
+ "step": 4090
2905
+ },
2906
+ {
2907
+ "epoch": 1.28,
2908
+ "grad_norm": 0.0152587890625,
2909
+ "learning_rate": 4.000000000000001e-06,
2910
+ "loss": 0.0404,
2911
+ "step": 4100
2912
+ },
2913
+ {
2914
+ "epoch": 1.29,
2915
+ "grad_norm": 0.00201416015625,
2916
+ "learning_rate": 3.955555555555556e-06,
2917
+ "loss": 0.0219,
2918
+ "step": 4110
2919
+ },
2920
+ {
2921
+ "epoch": 1.29,
2922
+ "grad_norm": 10.6875,
2923
+ "learning_rate": 3.911111111111112e-06,
2924
+ "loss": 0.0543,
2925
+ "step": 4120
2926
+ },
2927
+ {
2928
+ "epoch": 1.29,
2929
+ "grad_norm": 6.9375,
2930
+ "learning_rate": 3.866666666666667e-06,
2931
+ "loss": 0.0308,
2932
+ "step": 4130
2933
+ },
2934
+ {
2935
+ "epoch": 1.3,
2936
+ "grad_norm": 0.05615234375,
2937
+ "learning_rate": 3.8222222222222224e-06,
2938
+ "loss": 0.019,
2939
+ "step": 4140
2940
+ },
2941
+ {
2942
+ "epoch": 1.3,
2943
+ "grad_norm": 0.00099945068359375,
2944
+ "learning_rate": 3.777777777777778e-06,
2945
+ "loss": 0.0747,
2946
+ "step": 4150
2947
+ },
2948
+ {
2949
+ "epoch": 1.3,
2950
+ "grad_norm": 7.75,
2951
+ "learning_rate": 3.7333333333333337e-06,
2952
+ "loss": 0.0319,
2953
+ "step": 4160
2954
+ },
2955
+ {
2956
+ "epoch": 1.31,
2957
+ "grad_norm": 4.21875,
2958
+ "learning_rate": 3.688888888888889e-06,
2959
+ "loss": 0.009,
2960
+ "step": 4170
2961
+ },
2962
+ {
2963
+ "epoch": 1.31,
2964
+ "grad_norm": 0.001708984375,
2965
+ "learning_rate": 3.644444444444445e-06,
2966
+ "loss": 0.0174,
2967
+ "step": 4180
2968
+ },
2969
+ {
2970
+ "epoch": 1.31,
2971
+ "grad_norm": 0.000949859619140625,
2972
+ "learning_rate": 3.6000000000000003e-06,
2973
+ "loss": 0.0062,
2974
+ "step": 4190
2975
+ },
2976
+ {
2977
+ "epoch": 1.32,
2978
+ "grad_norm": 0.0011138916015625,
2979
+ "learning_rate": 3.555555555555556e-06,
2980
+ "loss": 0.0063,
2981
+ "step": 4200
2982
+ },
2983
+ {
2984
+ "epoch": 1.32,
2985
+ "grad_norm": 15.0,
2986
+ "learning_rate": 3.511111111111111e-06,
2987
+ "loss": 0.016,
2988
+ "step": 4210
2989
+ },
2990
+ {
2991
+ "epoch": 1.32,
2992
+ "grad_norm": 0.0059814453125,
2993
+ "learning_rate": 3.4666666666666672e-06,
2994
+ "loss": 0.017,
2995
+ "step": 4220
2996
+ },
2997
+ {
2998
+ "epoch": 1.33,
2999
+ "grad_norm": 0.005126953125,
3000
+ "learning_rate": 3.4222222222222224e-06,
3001
+ "loss": 0.0445,
3002
+ "step": 4230
3003
+ },
3004
+ {
3005
+ "epoch": 1.33,
3006
+ "grad_norm": 0.00115203857421875,
3007
+ "learning_rate": 3.377777777777778e-06,
3008
+ "loss": 0.0146,
3009
+ "step": 4240
3010
+ },
3011
+ {
3012
+ "epoch": 1.33,
3013
+ "grad_norm": 0.00102996826171875,
3014
+ "learning_rate": 3.3333333333333333e-06,
3015
+ "loss": 0.0121,
3016
+ "step": 4250
3017
+ },
3018
+ {
3019
+ "epoch": 1.33,
3020
+ "grad_norm": 0.0018157958984375,
3021
+ "learning_rate": 3.2888888888888894e-06,
3022
+ "loss": 0.015,
3023
+ "step": 4260
3024
+ },
3025
+ {
3026
+ "epoch": 1.34,
3027
+ "grad_norm": 0.0048828125,
3028
+ "learning_rate": 3.2444444444444446e-06,
3029
+ "loss": 0.0258,
3030
+ "step": 4270
3031
+ },
3032
+ {
3033
+ "epoch": 1.34,
3034
+ "grad_norm": 6.8125,
3035
+ "learning_rate": 3.2000000000000003e-06,
3036
+ "loss": 0.1234,
3037
+ "step": 4280
3038
+ },
3039
+ {
3040
+ "epoch": 1.34,
3041
+ "grad_norm": 0.0011138916015625,
3042
+ "learning_rate": 3.1555555555555555e-06,
3043
+ "loss": 0.0093,
3044
+ "step": 4290
3045
+ },
3046
+ {
3047
+ "epoch": 1.35,
3048
+ "grad_norm": 0.0012969970703125,
3049
+ "learning_rate": 3.1111111111111116e-06,
3050
+ "loss": 0.007,
3051
+ "step": 4300
3052
+ },
3053
+ {
3054
+ "epoch": 1.35,
3055
+ "grad_norm": 0.00946044921875,
3056
+ "learning_rate": 3.066666666666667e-06,
3057
+ "loss": 0.0176,
3058
+ "step": 4310
3059
+ },
3060
+ {
3061
+ "epoch": 1.35,
3062
+ "grad_norm": 0.00457763671875,
3063
+ "learning_rate": 3.0222222222222225e-06,
3064
+ "loss": 0.0416,
3065
+ "step": 4320
3066
+ },
3067
+ {
3068
+ "epoch": 1.36,
3069
+ "grad_norm": 0.0016326904296875,
3070
+ "learning_rate": 2.9777777777777777e-06,
3071
+ "loss": 0.0243,
3072
+ "step": 4330
3073
+ },
3074
+ {
3075
+ "epoch": 1.36,
3076
+ "grad_norm": 0.0013275146484375,
3077
+ "learning_rate": 2.9333333333333338e-06,
3078
+ "loss": 0.047,
3079
+ "step": 4340
3080
+ },
3081
+ {
3082
+ "epoch": 1.36,
3083
+ "grad_norm": 0.004638671875,
3084
+ "learning_rate": 2.888888888888889e-06,
3085
+ "loss": 0.0327,
3086
+ "step": 4350
3087
+ },
3088
+ {
3089
+ "epoch": 1.37,
3090
+ "grad_norm": 6.34375,
3091
+ "learning_rate": 2.8444444444444446e-06,
3092
+ "loss": 0.0559,
3093
+ "step": 4360
3094
+ },
3095
+ {
3096
+ "epoch": 1.37,
3097
+ "grad_norm": 13.625,
3098
+ "learning_rate": 2.8000000000000003e-06,
3099
+ "loss": 0.0301,
3100
+ "step": 4370
3101
+ },
3102
+ {
3103
+ "epoch": 1.37,
3104
+ "grad_norm": 6.28125,
3105
+ "learning_rate": 2.755555555555556e-06,
3106
+ "loss": 0.0494,
3107
+ "step": 4380
3108
+ },
3109
+ {
3110
+ "epoch": 1.38,
3111
+ "grad_norm": 0.00408935546875,
3112
+ "learning_rate": 2.7111111111111116e-06,
3113
+ "loss": 0.0182,
3114
+ "step": 4390
3115
+ },
3116
+ {
3117
+ "epoch": 1.38,
3118
+ "grad_norm": 14.125,
3119
+ "learning_rate": 2.666666666666667e-06,
3120
+ "loss": 0.045,
3121
+ "step": 4400
3122
+ },
3123
+ {
3124
+ "epoch": 1.38,
3125
+ "grad_norm": 0.00121307373046875,
3126
+ "learning_rate": 2.6222222222222225e-06,
3127
+ "loss": 0.0493,
3128
+ "step": 4410
3129
+ },
3130
+ {
3131
+ "epoch": 1.38,
3132
+ "grad_norm": 6.53125,
3133
+ "learning_rate": 2.577777777777778e-06,
3134
+ "loss": 0.0232,
3135
+ "step": 4420
3136
+ },
3137
+ {
3138
+ "epoch": 1.39,
3139
+ "grad_norm": 0.00131988525390625,
3140
+ "learning_rate": 2.5333333333333338e-06,
3141
+ "loss": 0.0207,
3142
+ "step": 4430
3143
+ },
3144
+ {
3145
+ "epoch": 1.39,
3146
+ "grad_norm": 2.984375,
3147
+ "learning_rate": 2.488888888888889e-06,
3148
+ "loss": 0.0627,
3149
+ "step": 4440
3150
+ },
3151
+ {
3152
+ "epoch": 1.39,
3153
+ "grad_norm": 0.00109100341796875,
3154
+ "learning_rate": 2.4444444444444447e-06,
3155
+ "loss": 0.0272,
3156
+ "step": 4450
3157
+ },
3158
+ {
3159
+ "epoch": 1.4,
3160
+ "grad_norm": 0.00457763671875,
3161
+ "learning_rate": 2.4000000000000003e-06,
3162
+ "loss": 0.0139,
3163
+ "step": 4460
3164
+ },
3165
+ {
3166
+ "epoch": 1.4,
3167
+ "grad_norm": 5.375,
3168
+ "learning_rate": 2.3555555555555555e-06,
3169
+ "loss": 0.0355,
3170
+ "step": 4470
3171
+ },
3172
+ {
3173
+ "epoch": 1.4,
3174
+ "grad_norm": 13.375,
3175
+ "learning_rate": 2.311111111111111e-06,
3176
+ "loss": 0.0465,
3177
+ "step": 4480
3178
+ },
3179
+ {
3180
+ "epoch": 1.41,
3181
+ "grad_norm": 0.045654296875,
3182
+ "learning_rate": 2.266666666666667e-06,
3183
+ "loss": 0.0154,
3184
+ "step": 4490
3185
+ },
3186
+ {
3187
+ "epoch": 1.41,
3188
+ "grad_norm": 0.004638671875,
3189
+ "learning_rate": 2.222222222222222e-06,
3190
+ "loss": 0.0128,
3191
+ "step": 4500
3192
+ },
3193
+ {
3194
+ "epoch": 1.41,
3195
+ "grad_norm": 0.00168609619140625,
3196
+ "learning_rate": 2.1777777777777777e-06,
3197
+ "loss": 0.0219,
3198
+ "step": 4510
3199
+ },
3200
+ {
3201
+ "epoch": 1.42,
3202
+ "grad_norm": 3.53125,
3203
+ "learning_rate": 2.133333333333334e-06,
3204
+ "loss": 0.0216,
3205
+ "step": 4520
3206
+ },
3207
+ {
3208
+ "epoch": 1.42,
3209
+ "grad_norm": 0.000942230224609375,
3210
+ "learning_rate": 2.088888888888889e-06,
3211
+ "loss": 0.0253,
3212
+ "step": 4530
3213
+ },
3214
+ {
3215
+ "epoch": 1.42,
3216
+ "grad_norm": 0.001617431640625,
3217
+ "learning_rate": 2.0444444444444447e-06,
3218
+ "loss": 0.0129,
3219
+ "step": 4540
3220
+ },
3221
+ {
3222
+ "epoch": 1.43,
3223
+ "grad_norm": 0.0012664794921875,
3224
+ "learning_rate": 2.0000000000000003e-06,
3225
+ "loss": 0.0101,
3226
+ "step": 4550
3227
+ },
3228
+ {
3229
+ "epoch": 1.43,
3230
+ "grad_norm": 0.00170135498046875,
3231
+ "learning_rate": 1.955555555555556e-06,
3232
+ "loss": 0.0086,
3233
+ "step": 4560
3234
+ },
3235
+ {
3236
+ "epoch": 1.43,
3237
+ "grad_norm": 0.000946044921875,
3238
+ "learning_rate": 1.9111111111111112e-06,
3239
+ "loss": 0.0114,
3240
+ "step": 4570
3241
+ },
3242
+ {
3243
+ "epoch": 1.43,
3244
+ "grad_norm": 0.00153350830078125,
3245
+ "learning_rate": 1.8666666666666669e-06,
3246
+ "loss": 0.0088,
3247
+ "step": 4580
3248
+ },
3249
+ {
3250
+ "epoch": 1.44,
3251
+ "grad_norm": 0.004669189453125,
3252
+ "learning_rate": 1.8222222222222225e-06,
3253
+ "loss": 0.0502,
3254
+ "step": 4590
3255
+ },
3256
+ {
3257
+ "epoch": 1.44,
3258
+ "grad_norm": 0.004638671875,
3259
+ "learning_rate": 1.777777777777778e-06,
3260
+ "loss": 0.0345,
3261
+ "step": 4600
3262
+ },
3263
+ {
3264
+ "epoch": 1.44,
3265
+ "grad_norm": 0.00092315673828125,
3266
+ "learning_rate": 1.7333333333333336e-06,
3267
+ "loss": 0.0224,
3268
+ "step": 4610
3269
+ },
3270
+ {
3271
+ "epoch": 1.45,
3272
+ "grad_norm": 0.00113677978515625,
3273
+ "learning_rate": 1.688888888888889e-06,
3274
+ "loss": 0.025,
3275
+ "step": 4620
3276
+ },
3277
+ {
3278
+ "epoch": 1.45,
3279
+ "grad_norm": 5.71875,
3280
+ "learning_rate": 1.6444444444444447e-06,
3281
+ "loss": 0.066,
3282
+ "step": 4630
3283
+ },
3284
+ {
3285
+ "epoch": 1.45,
3286
+ "grad_norm": 0.0013427734375,
3287
+ "learning_rate": 1.6000000000000001e-06,
3288
+ "loss": 0.0,
3289
+ "step": 4640
3290
+ },
3291
+ {
3292
+ "epoch": 1.46,
3293
+ "grad_norm": 5.875,
3294
+ "learning_rate": 1.5555555555555558e-06,
3295
+ "loss": 0.0285,
3296
+ "step": 4650
3297
+ },
3298
+ {
3299
+ "epoch": 1.46,
3300
+ "grad_norm": 0.0703125,
3301
+ "learning_rate": 1.5111111111111112e-06,
3302
+ "loss": 0.0825,
3303
+ "step": 4660
3304
+ },
3305
+ {
3306
+ "epoch": 1.46,
3307
+ "grad_norm": 0.00113677978515625,
3308
+ "learning_rate": 1.4666666666666669e-06,
3309
+ "loss": 0.0107,
3310
+ "step": 4670
3311
+ },
3312
+ {
3313
+ "epoch": 1.47,
3314
+ "grad_norm": 0.0009918212890625,
3315
+ "learning_rate": 1.4222222222222223e-06,
3316
+ "loss": 0.0052,
3317
+ "step": 4680
3318
+ },
3319
+ {
3320
+ "epoch": 1.47,
3321
+ "grad_norm": 4.0625,
3322
+ "learning_rate": 1.377777777777778e-06,
3323
+ "loss": 0.0596,
3324
+ "step": 4690
3325
+ },
3326
+ {
3327
+ "epoch": 1.47,
3328
+ "grad_norm": 3.78125,
3329
+ "learning_rate": 1.3333333333333334e-06,
3330
+ "loss": 0.0114,
3331
+ "step": 4700
3332
+ },
3333
+ {
3334
+ "epoch": 1.48,
3335
+ "grad_norm": 0.0018310546875,
3336
+ "learning_rate": 1.288888888888889e-06,
3337
+ "loss": 0.0101,
3338
+ "step": 4710
3339
+ },
3340
+ {
3341
+ "epoch": 1.48,
3342
+ "grad_norm": 0.00299072265625,
3343
+ "learning_rate": 1.2444444444444445e-06,
3344
+ "loss": 0.014,
3345
+ "step": 4720
3346
+ },
3347
+ {
3348
+ "epoch": 1.48,
3349
+ "grad_norm": 1.859375,
3350
+ "learning_rate": 1.2000000000000002e-06,
3351
+ "loss": 0.0429,
3352
+ "step": 4730
3353
+ },
3354
+ {
3355
+ "epoch": 1.49,
3356
+ "grad_norm": 12.0625,
3357
+ "learning_rate": 1.1555555555555556e-06,
3358
+ "loss": 0.0624,
3359
+ "step": 4740
3360
+ },
3361
+ {
3362
+ "epoch": 1.49,
3363
+ "grad_norm": 0.00177001953125,
3364
+ "learning_rate": 1.111111111111111e-06,
3365
+ "loss": 0.0485,
3366
+ "step": 4750
3367
+ },
3368
+ {
3369
+ "epoch": 1.49,
3370
+ "grad_norm": 0.00482177734375,
3371
+ "learning_rate": 1.066666666666667e-06,
3372
+ "loss": 0.0042,
3373
+ "step": 4760
3374
+ },
3375
+ {
3376
+ "epoch": 1.49,
3377
+ "grad_norm": 3.671875,
3378
+ "learning_rate": 1.0222222222222223e-06,
3379
+ "loss": 0.032,
3380
+ "step": 4770
3381
+ },
3382
+ {
3383
+ "epoch": 1.5,
3384
+ "grad_norm": 0.003570556640625,
3385
+ "learning_rate": 9.77777777777778e-07,
3386
+ "loss": 0.0588,
3387
+ "step": 4780
3388
+ },
3389
+ {
3390
+ "epoch": 1.5,
3391
+ "grad_norm": 0.004608154296875,
3392
+ "learning_rate": 9.333333333333334e-07,
3393
+ "loss": 0.034,
3394
+ "step": 4790
3395
+ },
3396
+ {
3397
+ "epoch": 1.5,
3398
+ "grad_norm": 10.5,
3399
+ "learning_rate": 8.88888888888889e-07,
3400
+ "loss": 0.1101,
3401
+ "step": 4800
3402
+ },
3403
+ {
3404
+ "epoch": 1.51,
3405
+ "grad_norm": 0.0017547607421875,
3406
+ "learning_rate": 8.444444444444445e-07,
3407
+ "loss": 0.0062,
3408
+ "step": 4810
3409
+ },
3410
+ {
3411
+ "epoch": 1.51,
3412
+ "grad_norm": 0.004669189453125,
3413
+ "learning_rate": 8.000000000000001e-07,
3414
+ "loss": 0.042,
3415
+ "step": 4820
3416
+ },
3417
+ {
3418
+ "epoch": 1.51,
3419
+ "grad_norm": 9.1875,
3420
+ "learning_rate": 7.555555555555556e-07,
3421
+ "loss": 0.0495,
3422
+ "step": 4830
3423
+ },
3424
+ {
3425
+ "epoch": 1.52,
3426
+ "grad_norm": 0.1708984375,
3427
+ "learning_rate": 7.111111111111112e-07,
3428
+ "loss": 0.0104,
3429
+ "step": 4840
3430
+ },
3431
+ {
3432
+ "epoch": 1.52,
3433
+ "grad_norm": 0.004608154296875,
3434
+ "learning_rate": 6.666666666666667e-07,
3435
+ "loss": 0.0433,
3436
+ "step": 4850
3437
+ },
3438
+ {
3439
+ "epoch": 1.52,
3440
+ "grad_norm": 0.001251220703125,
3441
+ "learning_rate": 6.222222222222223e-07,
3442
+ "loss": 0.003,
3443
+ "step": 4860
3444
+ },
3445
+ {
3446
+ "epoch": 1.53,
3447
+ "grad_norm": 0.001007080078125,
3448
+ "learning_rate": 5.777777777777778e-07,
3449
+ "loss": 0.0561,
3450
+ "step": 4870
3451
+ },
3452
+ {
3453
+ "epoch": 1.53,
3454
+ "grad_norm": 5.46875,
3455
+ "learning_rate": 5.333333333333335e-07,
3456
+ "loss": 0.0171,
3457
+ "step": 4880
3458
+ },
3459
+ {
3460
+ "epoch": 1.53,
3461
+ "grad_norm": 16.625,
3462
+ "learning_rate": 4.88888888888889e-07,
3463
+ "loss": 0.0468,
3464
+ "step": 4890
3465
+ },
3466
+ {
3467
+ "epoch": 1.54,
3468
+ "grad_norm": 0.00116729736328125,
3469
+ "learning_rate": 4.444444444444445e-07,
3470
+ "loss": 0.024,
3471
+ "step": 4900
3472
+ },
3473
+ {
3474
+ "epoch": 1.54,
3475
+ "grad_norm": 0.0010528564453125,
3476
+ "learning_rate": 4.0000000000000003e-07,
3477
+ "loss": 0.0727,
3478
+ "step": 4910
3479
+ },
3480
+ {
3481
+ "epoch": 1.54,
3482
+ "grad_norm": 0.02197265625,
3483
+ "learning_rate": 3.555555555555556e-07,
3484
+ "loss": 0.0079,
3485
+ "step": 4920
3486
+ },
3487
+ {
3488
+ "epoch": 1.54,
3489
+ "grad_norm": 0.0010528564453125,
3490
+ "learning_rate": 3.111111111111111e-07,
3491
+ "loss": 0.0251,
3492
+ "step": 4930
3493
+ },
3494
+ {
3495
+ "epoch": 1.55,
3496
+ "grad_norm": 0.0011444091796875,
3497
+ "learning_rate": 2.666666666666667e-07,
3498
+ "loss": 0.0053,
3499
+ "step": 4940
3500
+ },
3501
+ {
3502
+ "epoch": 1.55,
3503
+ "grad_norm": 0.001190185546875,
3504
+ "learning_rate": 2.2222222222222224e-07,
3505
+ "loss": 0.016,
3506
+ "step": 4950
3507
+ },
3508
+ {
3509
+ "epoch": 1.55,
3510
+ "grad_norm": 0.0018310546875,
3511
+ "learning_rate": 1.777777777777778e-07,
3512
+ "loss": 0.0398,
3513
+ "step": 4960
3514
+ },
3515
+ {
3516
+ "epoch": 1.56,
3517
+ "grad_norm": 0.00189971923828125,
3518
+ "learning_rate": 1.3333333333333336e-07,
3519
+ "loss": 0.0438,
3520
+ "step": 4970
3521
+ },
3522
+ {
3523
+ "epoch": 1.56,
3524
+ "grad_norm": 0.00121307373046875,
3525
+ "learning_rate": 8.88888888888889e-08,
3526
+ "loss": 0.02,
3527
+ "step": 4980
3528
+ },
3529
+ {
3530
+ "epoch": 1.56,
3531
+ "grad_norm": 0.0034027099609375,
3532
+ "learning_rate": 4.444444444444445e-08,
3533
+ "loss": 0.0511,
3534
+ "step": 4990
3535
+ },
3536
+ {
3537
+ "epoch": 1.57,
3538
+ "grad_norm": 0.00183868408203125,
3539
+ "learning_rate": 0.0,
3540
+ "loss": 0.0318,
3541
+ "step": 5000
3542
+ },
3543
+ {
3544
+ "epoch": 1.57,
3545
+ "eval_loss": 0.02059042826294899,
3546
+ "eval_runtime": 53.6829,
3547
+ "eval_samples_per_second": 18.628,
3548
+ "eval_steps_per_second": 18.628,
3549
+ "step": 5000
3550
  }
3551
  ],
3552
  "logging_steps": 10,
 
3554
  "num_input_tokens_seen": 0,
3555
  "num_train_epochs": 2,
3556
  "save_steps": 1000,
3557
+ "total_flos": 7.866849165312e+16,
3558
  "train_batch_size": 1,
3559
  "trial_name": null,
3560
  "trial_params": null