UltimoUno commited on
Commit
1d78a94
1 Parent(s): 51cec76

Uploaded checkpoint-5000

Browse files
Files changed (5) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3201017b6d299d8c2cb5eff8dfb87a841857ac5b48a904337a63577b57e72464
3
  size 2692969128
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e051759d05da48e29b5c4413973d7cbdefe089cd5a13dac7c9f3912fae016b89
3
  size 2692969128
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0bc91b5189b6a58b603e0148037300250d28c3b0c30d72a7e486062f8ab49769
3
  size 5386075202
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:80175c66d4a64b5df8abb364d6a1e98f687d74471e1bf8c1eda749c3828c29a1
3
  size 5386075202
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1c92a95a97d689d636b085d406167a1d143dce26fb83ee64d21cf4b37a120302
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4ce3f1fd7866b93bfea3f328fd35124d6c8818c1dd3b24d163380d4a576714e9
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.01655612699687481,
3
  "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-3000",
4
- "epoch": 1.2532309861361322,
5
  "eval_steps": 1000,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2839,6 +2839,714 @@
2839
  "eval_samples_per_second": 18.707,
2840
  "eval_steps_per_second": 18.707,
2841
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2842
  }
2843
  ],
2844
  "logging_steps": 10,
@@ -2846,7 +3554,7 @@
2846
  "num_input_tokens_seen": 0,
2847
  "num_train_epochs": 2,
2848
  "save_steps": 1000,
2849
- "total_flos": 6.2934793322496e+16,
2850
  "train_batch_size": 1,
2851
  "trial_name": null,
2852
  "trial_params": null
 
1
  {
2
  "best_metric": 0.01655612699687481,
3
  "best_model_checkpoint": "runs/deepseek_20240423-162824/checkpoint-3000",
4
+ "epoch": 1.5665387326701654,
5
  "eval_steps": 1000,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2839
  "eval_samples_per_second": 18.707,
2840
  "eval_steps_per_second": 18.707,
2841
  "step": 4000
2842
+ },
2843
+ {
2844
+ "epoch": 1.26,
2845
+ "grad_norm": 0.004425048828125,
2846
+ "learning_rate": 4.4e-06,
2847
+ "loss": 0.0446,
2848
+ "step": 4010
2849
+ },
2850
+ {
2851
+ "epoch": 1.26,
2852
+ "grad_norm": 3.515625,
2853
+ "learning_rate": 4.3555555555555555e-06,
2854
+ "loss": 0.0218,
2855
+ "step": 4020
2856
+ },
2857
+ {
2858
+ "epoch": 1.26,
2859
+ "grad_norm": 40.75,
2860
+ "learning_rate": 4.3111111111111115e-06,
2861
+ "loss": 0.063,
2862
+ "step": 4030
2863
+ },
2864
+ {
2865
+ "epoch": 1.27,
2866
+ "grad_norm": 0.00130462646484375,
2867
+ "learning_rate": 4.266666666666668e-06,
2868
+ "loss": 0.0107,
2869
+ "step": 4040
2870
+ },
2871
+ {
2872
+ "epoch": 1.27,
2873
+ "grad_norm": 0.004302978515625,
2874
+ "learning_rate": 4.222222222222223e-06,
2875
+ "loss": 0.1038,
2876
+ "step": 4050
2877
+ },
2878
+ {
2879
+ "epoch": 1.27,
2880
+ "grad_norm": 2.34375,
2881
+ "learning_rate": 4.177777777777778e-06,
2882
+ "loss": 0.0249,
2883
+ "step": 4060
2884
+ },
2885
+ {
2886
+ "epoch": 1.28,
2887
+ "grad_norm": 0.01165771484375,
2888
+ "learning_rate": 4.133333333333333e-06,
2889
+ "loss": 0.0037,
2890
+ "step": 4070
2891
+ },
2892
+ {
2893
+ "epoch": 1.28,
2894
+ "grad_norm": 3.65625,
2895
+ "learning_rate": 4.088888888888889e-06,
2896
+ "loss": 0.0327,
2897
+ "step": 4080
2898
+ },
2899
+ {
2900
+ "epoch": 1.28,
2901
+ "grad_norm": 0.0019989013671875,
2902
+ "learning_rate": 4.044444444444445e-06,
2903
+ "loss": 0.0239,
2904
+ "step": 4090
2905
+ },
2906
+ {
2907
+ "epoch": 1.28,
2908
+ "grad_norm": 0.1796875,
2909
+ "learning_rate": 4.000000000000001e-06,
2910
+ "loss": 0.0338,
2911
+ "step": 4100
2912
+ },
2913
+ {
2914
+ "epoch": 1.29,
2915
+ "grad_norm": 0.0020294189453125,
2916
+ "learning_rate": 3.955555555555556e-06,
2917
+ "loss": 0.0132,
2918
+ "step": 4110
2919
+ },
2920
+ {
2921
+ "epoch": 1.29,
2922
+ "grad_norm": 5.21875,
2923
+ "learning_rate": 3.911111111111112e-06,
2924
+ "loss": 0.0517,
2925
+ "step": 4120
2926
+ },
2927
+ {
2928
+ "epoch": 1.29,
2929
+ "grad_norm": 7.5,
2930
+ "learning_rate": 3.866666666666667e-06,
2931
+ "loss": 0.031,
2932
+ "step": 4130
2933
+ },
2934
+ {
2935
+ "epoch": 1.3,
2936
+ "grad_norm": 0.0634765625,
2937
+ "learning_rate": 3.8222222222222224e-06,
2938
+ "loss": 0.025,
2939
+ "step": 4140
2940
+ },
2941
+ {
2942
+ "epoch": 1.3,
2943
+ "grad_norm": 0.00112152099609375,
2944
+ "learning_rate": 3.777777777777778e-06,
2945
+ "loss": 0.0612,
2946
+ "step": 4150
2947
+ },
2948
+ {
2949
+ "epoch": 1.3,
2950
+ "grad_norm": 10.9375,
2951
+ "learning_rate": 3.7333333333333337e-06,
2952
+ "loss": 0.0324,
2953
+ "step": 4160
2954
+ },
2955
+ {
2956
+ "epoch": 1.31,
2957
+ "grad_norm": 3.515625,
2958
+ "learning_rate": 3.688888888888889e-06,
2959
+ "loss": 0.0083,
2960
+ "step": 4170
2961
+ },
2962
+ {
2963
+ "epoch": 1.31,
2964
+ "grad_norm": 0.001617431640625,
2965
+ "learning_rate": 3.644444444444445e-06,
2966
+ "loss": 0.0202,
2967
+ "step": 4180
2968
+ },
2969
+ {
2970
+ "epoch": 1.31,
2971
+ "grad_norm": 0.000965118408203125,
2972
+ "learning_rate": 3.6000000000000003e-06,
2973
+ "loss": 0.0053,
2974
+ "step": 4190
2975
+ },
2976
+ {
2977
+ "epoch": 1.32,
2978
+ "grad_norm": 0.0009613037109375,
2979
+ "learning_rate": 3.555555555555556e-06,
2980
+ "loss": 0.0071,
2981
+ "step": 4200
2982
+ },
2983
+ {
2984
+ "epoch": 1.32,
2985
+ "grad_norm": 8.3125,
2986
+ "learning_rate": 3.511111111111111e-06,
2987
+ "loss": 0.0146,
2988
+ "step": 4210
2989
+ },
2990
+ {
2991
+ "epoch": 1.32,
2992
+ "grad_norm": 0.00958251953125,
2993
+ "learning_rate": 3.4666666666666672e-06,
2994
+ "loss": 0.0134,
2995
+ "step": 4220
2996
+ },
2997
+ {
2998
+ "epoch": 1.33,
2999
+ "grad_norm": 0.004852294921875,
3000
+ "learning_rate": 3.4222222222222224e-06,
3001
+ "loss": 0.0439,
3002
+ "step": 4230
3003
+ },
3004
+ {
3005
+ "epoch": 1.33,
3006
+ "grad_norm": 0.00107574462890625,
3007
+ "learning_rate": 3.377777777777778e-06,
3008
+ "loss": 0.0119,
3009
+ "step": 4240
3010
+ },
3011
+ {
3012
+ "epoch": 1.33,
3013
+ "grad_norm": 0.000972747802734375,
3014
+ "learning_rate": 3.3333333333333333e-06,
3015
+ "loss": 0.0148,
3016
+ "step": 4250
3017
+ },
3018
+ {
3019
+ "epoch": 1.33,
3020
+ "grad_norm": 0.0018157958984375,
3021
+ "learning_rate": 3.2888888888888894e-06,
3022
+ "loss": 0.018,
3023
+ "step": 4260
3024
+ },
3025
+ {
3026
+ "epoch": 1.34,
3027
+ "grad_norm": 0.004638671875,
3028
+ "learning_rate": 3.2444444444444446e-06,
3029
+ "loss": 0.0257,
3030
+ "step": 4270
3031
+ },
3032
+ {
3033
+ "epoch": 1.34,
3034
+ "grad_norm": 13.1875,
3035
+ "learning_rate": 3.2000000000000003e-06,
3036
+ "loss": 0.1221,
3037
+ "step": 4280
3038
+ },
3039
+ {
3040
+ "epoch": 1.34,
3041
+ "grad_norm": 0.0011444091796875,
3042
+ "learning_rate": 3.1555555555555555e-06,
3043
+ "loss": 0.0103,
3044
+ "step": 4290
3045
+ },
3046
+ {
3047
+ "epoch": 1.35,
3048
+ "grad_norm": 0.00104522705078125,
3049
+ "learning_rate": 3.1111111111111116e-06,
3050
+ "loss": 0.0097,
3051
+ "step": 4300
3052
+ },
3053
+ {
3054
+ "epoch": 1.35,
3055
+ "grad_norm": 0.008544921875,
3056
+ "learning_rate": 3.066666666666667e-06,
3057
+ "loss": 0.0167,
3058
+ "step": 4310
3059
+ },
3060
+ {
3061
+ "epoch": 1.35,
3062
+ "grad_norm": 0.004974365234375,
3063
+ "learning_rate": 3.0222222222222225e-06,
3064
+ "loss": 0.0344,
3065
+ "step": 4320
3066
+ },
3067
+ {
3068
+ "epoch": 1.36,
3069
+ "grad_norm": 0.0016632080078125,
3070
+ "learning_rate": 2.9777777777777777e-06,
3071
+ "loss": 0.0225,
3072
+ "step": 4330
3073
+ },
3074
+ {
3075
+ "epoch": 1.36,
3076
+ "grad_norm": 0.0011749267578125,
3077
+ "learning_rate": 2.9333333333333338e-06,
3078
+ "loss": 0.0501,
3079
+ "step": 4340
3080
+ },
3081
+ {
3082
+ "epoch": 1.36,
3083
+ "grad_norm": 0.004302978515625,
3084
+ "learning_rate": 2.888888888888889e-06,
3085
+ "loss": 0.0353,
3086
+ "step": 4350
3087
+ },
3088
+ {
3089
+ "epoch": 1.37,
3090
+ "grad_norm": 6.0625,
3091
+ "learning_rate": 2.8444444444444446e-06,
3092
+ "loss": 0.0499,
3093
+ "step": 4360
3094
+ },
3095
+ {
3096
+ "epoch": 1.37,
3097
+ "grad_norm": 11.375,
3098
+ "learning_rate": 2.8000000000000003e-06,
3099
+ "loss": 0.0481,
3100
+ "step": 4370
3101
+ },
3102
+ {
3103
+ "epoch": 1.37,
3104
+ "grad_norm": 7.40625,
3105
+ "learning_rate": 2.755555555555556e-06,
3106
+ "loss": 0.046,
3107
+ "step": 4380
3108
+ },
3109
+ {
3110
+ "epoch": 1.38,
3111
+ "grad_norm": 0.26171875,
3112
+ "learning_rate": 2.7111111111111116e-06,
3113
+ "loss": 0.0224,
3114
+ "step": 4390
3115
+ },
3116
+ {
3117
+ "epoch": 1.38,
3118
+ "grad_norm": 22.25,
3119
+ "learning_rate": 2.666666666666667e-06,
3120
+ "loss": 0.048,
3121
+ "step": 4400
3122
+ },
3123
+ {
3124
+ "epoch": 1.38,
3125
+ "grad_norm": 0.00112152099609375,
3126
+ "learning_rate": 2.6222222222222225e-06,
3127
+ "loss": 0.0403,
3128
+ "step": 4410
3129
+ },
3130
+ {
3131
+ "epoch": 1.38,
3132
+ "grad_norm": 7.78125,
3133
+ "learning_rate": 2.577777777777778e-06,
3134
+ "loss": 0.0224,
3135
+ "step": 4420
3136
+ },
3137
+ {
3138
+ "epoch": 1.39,
3139
+ "grad_norm": 0.00116729736328125,
3140
+ "learning_rate": 2.5333333333333338e-06,
3141
+ "loss": 0.024,
3142
+ "step": 4430
3143
+ },
3144
+ {
3145
+ "epoch": 1.39,
3146
+ "grad_norm": 6.96875,
3147
+ "learning_rate": 2.488888888888889e-06,
3148
+ "loss": 0.0603,
3149
+ "step": 4440
3150
+ },
3151
+ {
3152
+ "epoch": 1.39,
3153
+ "grad_norm": 0.00099945068359375,
3154
+ "learning_rate": 2.4444444444444447e-06,
3155
+ "loss": 0.0245,
3156
+ "step": 4450
3157
+ },
3158
+ {
3159
+ "epoch": 1.4,
3160
+ "grad_norm": 0.004119873046875,
3161
+ "learning_rate": 2.4000000000000003e-06,
3162
+ "loss": 0.0144,
3163
+ "step": 4460
3164
+ },
3165
+ {
3166
+ "epoch": 1.4,
3167
+ "grad_norm": 6.0,
3168
+ "learning_rate": 2.3555555555555555e-06,
3169
+ "loss": 0.0329,
3170
+ "step": 4470
3171
+ },
3172
+ {
3173
+ "epoch": 1.4,
3174
+ "grad_norm": 9.9375,
3175
+ "learning_rate": 2.311111111111111e-06,
3176
+ "loss": 0.0342,
3177
+ "step": 4480
3178
+ },
3179
+ {
3180
+ "epoch": 1.41,
3181
+ "grad_norm": 0.2490234375,
3182
+ "learning_rate": 2.266666666666667e-06,
3183
+ "loss": 0.0128,
3184
+ "step": 4490
3185
+ },
3186
+ {
3187
+ "epoch": 1.41,
3188
+ "grad_norm": 0.00421142578125,
3189
+ "learning_rate": 2.222222222222222e-06,
3190
+ "loss": 0.0146,
3191
+ "step": 4500
3192
+ },
3193
+ {
3194
+ "epoch": 1.41,
3195
+ "grad_norm": 0.00152587890625,
3196
+ "learning_rate": 2.1777777777777777e-06,
3197
+ "loss": 0.0191,
3198
+ "step": 4510
3199
+ },
3200
+ {
3201
+ "epoch": 1.42,
3202
+ "grad_norm": 3.84375,
3203
+ "learning_rate": 2.133333333333334e-06,
3204
+ "loss": 0.0172,
3205
+ "step": 4520
3206
+ },
3207
+ {
3208
+ "epoch": 1.42,
3209
+ "grad_norm": 0.00092315673828125,
3210
+ "learning_rate": 2.088888888888889e-06,
3211
+ "loss": 0.0341,
3212
+ "step": 4530
3213
+ },
3214
+ {
3215
+ "epoch": 1.42,
3216
+ "grad_norm": 0.00156402587890625,
3217
+ "learning_rate": 2.0444444444444447e-06,
3218
+ "loss": 0.0143,
3219
+ "step": 4540
3220
+ },
3221
+ {
3222
+ "epoch": 1.43,
3223
+ "grad_norm": 0.00115203857421875,
3224
+ "learning_rate": 2.0000000000000003e-06,
3225
+ "loss": 0.0096,
3226
+ "step": 4550
3227
+ },
3228
+ {
3229
+ "epoch": 1.43,
3230
+ "grad_norm": 0.002410888671875,
3231
+ "learning_rate": 1.955555555555556e-06,
3232
+ "loss": 0.0083,
3233
+ "step": 4560
3234
+ },
3235
+ {
3236
+ "epoch": 1.43,
3237
+ "grad_norm": 0.00091552734375,
3238
+ "learning_rate": 1.9111111111111112e-06,
3239
+ "loss": 0.0089,
3240
+ "step": 4570
3241
+ },
3242
+ {
3243
+ "epoch": 1.43,
3244
+ "grad_norm": 0.0016326904296875,
3245
+ "learning_rate": 1.8666666666666669e-06,
3246
+ "loss": 0.008,
3247
+ "step": 4580
3248
+ },
3249
+ {
3250
+ "epoch": 1.44,
3251
+ "grad_norm": 0.004364013671875,
3252
+ "learning_rate": 1.8222222222222225e-06,
3253
+ "loss": 0.0497,
3254
+ "step": 4590
3255
+ },
3256
+ {
3257
+ "epoch": 1.44,
3258
+ "grad_norm": 0.004241943359375,
3259
+ "learning_rate": 1.777777777777778e-06,
3260
+ "loss": 0.0358,
3261
+ "step": 4600
3262
+ },
3263
+ {
3264
+ "epoch": 1.44,
3265
+ "grad_norm": 0.0009613037109375,
3266
+ "learning_rate": 1.7333333333333336e-06,
3267
+ "loss": 0.0263,
3268
+ "step": 4610
3269
+ },
3270
+ {
3271
+ "epoch": 1.45,
3272
+ "grad_norm": 0.00109100341796875,
3273
+ "learning_rate": 1.688888888888889e-06,
3274
+ "loss": 0.0274,
3275
+ "step": 4620
3276
+ },
3277
+ {
3278
+ "epoch": 1.45,
3279
+ "grad_norm": 6.03125,
3280
+ "learning_rate": 1.6444444444444447e-06,
3281
+ "loss": 0.0608,
3282
+ "step": 4630
3283
+ },
3284
+ {
3285
+ "epoch": 1.45,
3286
+ "grad_norm": 0.00113677978515625,
3287
+ "learning_rate": 1.6000000000000001e-06,
3288
+ "loss": 0.0,
3289
+ "step": 4640
3290
+ },
3291
+ {
3292
+ "epoch": 1.46,
3293
+ "grad_norm": 7.1875,
3294
+ "learning_rate": 1.5555555555555558e-06,
3295
+ "loss": 0.0306,
3296
+ "step": 4650
3297
+ },
3298
+ {
3299
+ "epoch": 1.46,
3300
+ "grad_norm": 0.1025390625,
3301
+ "learning_rate": 1.5111111111111112e-06,
3302
+ "loss": 0.0911,
3303
+ "step": 4660
3304
+ },
3305
+ {
3306
+ "epoch": 1.46,
3307
+ "grad_norm": 0.0012054443359375,
3308
+ "learning_rate": 1.4666666666666669e-06,
3309
+ "loss": 0.0128,
3310
+ "step": 4670
3311
+ },
3312
+ {
3313
+ "epoch": 1.47,
3314
+ "grad_norm": 0.0009918212890625,
3315
+ "learning_rate": 1.4222222222222223e-06,
3316
+ "loss": 0.0017,
3317
+ "step": 4680
3318
+ },
3319
+ {
3320
+ "epoch": 1.47,
3321
+ "grad_norm": 5.125,
3322
+ "learning_rate": 1.377777777777778e-06,
3323
+ "loss": 0.0488,
3324
+ "step": 4690
3325
+ },
3326
+ {
3327
+ "epoch": 1.47,
3328
+ "grad_norm": 4.09375,
3329
+ "learning_rate": 1.3333333333333334e-06,
3330
+ "loss": 0.0071,
3331
+ "step": 4700
3332
+ },
3333
+ {
3334
+ "epoch": 1.48,
3335
+ "grad_norm": 0.00164794921875,
3336
+ "learning_rate": 1.288888888888889e-06,
3337
+ "loss": 0.0103,
3338
+ "step": 4710
3339
+ },
3340
+ {
3341
+ "epoch": 1.48,
3342
+ "grad_norm": 0.00186920166015625,
3343
+ "learning_rate": 1.2444444444444445e-06,
3344
+ "loss": 0.0139,
3345
+ "step": 4720
3346
+ },
3347
+ {
3348
+ "epoch": 1.48,
3349
+ "grad_norm": 2.203125,
3350
+ "learning_rate": 1.2000000000000002e-06,
3351
+ "loss": 0.043,
3352
+ "step": 4730
3353
+ },
3354
+ {
3355
+ "epoch": 1.49,
3356
+ "grad_norm": 5.03125,
3357
+ "learning_rate": 1.1555555555555556e-06,
3358
+ "loss": 0.057,
3359
+ "step": 4740
3360
+ },
3361
+ {
3362
+ "epoch": 1.49,
3363
+ "grad_norm": 0.00213623046875,
3364
+ "learning_rate": 1.111111111111111e-06,
3365
+ "loss": 0.0441,
3366
+ "step": 4750
3367
+ },
3368
+ {
3369
+ "epoch": 1.49,
3370
+ "grad_norm": 0.00433349609375,
3371
+ "learning_rate": 1.066666666666667e-06,
3372
+ "loss": 0.0042,
3373
+ "step": 4760
3374
+ },
3375
+ {
3376
+ "epoch": 1.49,
3377
+ "grad_norm": 3.140625,
3378
+ "learning_rate": 1.0222222222222223e-06,
3379
+ "loss": 0.0328,
3380
+ "step": 4770
3381
+ },
3382
+ {
3383
+ "epoch": 1.5,
3384
+ "grad_norm": 0.0048828125,
3385
+ "learning_rate": 9.77777777777778e-07,
3386
+ "loss": 0.0592,
3387
+ "step": 4780
3388
+ },
3389
+ {
3390
+ "epoch": 1.5,
3391
+ "grad_norm": 0.004364013671875,
3392
+ "learning_rate": 9.333333333333334e-07,
3393
+ "loss": 0.0307,
3394
+ "step": 4790
3395
+ },
3396
+ {
3397
+ "epoch": 1.5,
3398
+ "grad_norm": 10.8125,
3399
+ "learning_rate": 8.88888888888889e-07,
3400
+ "loss": 0.0961,
3401
+ "step": 4800
3402
+ },
3403
+ {
3404
+ "epoch": 1.51,
3405
+ "grad_norm": 0.00176239013671875,
3406
+ "learning_rate": 8.444444444444445e-07,
3407
+ "loss": 0.0042,
3408
+ "step": 4810
3409
+ },
3410
+ {
3411
+ "epoch": 1.51,
3412
+ "grad_norm": 0.00439453125,
3413
+ "learning_rate": 8.000000000000001e-07,
3414
+ "loss": 0.0354,
3415
+ "step": 4820
3416
+ },
3417
+ {
3418
+ "epoch": 1.51,
3419
+ "grad_norm": 0.333984375,
3420
+ "learning_rate": 7.555555555555556e-07,
3421
+ "loss": 0.0438,
3422
+ "step": 4830
3423
+ },
3424
+ {
3425
+ "epoch": 1.52,
3426
+ "grad_norm": 0.17578125,
3427
+ "learning_rate": 7.111111111111112e-07,
3428
+ "loss": 0.0102,
3429
+ "step": 4840
3430
+ },
3431
+ {
3432
+ "epoch": 1.52,
3433
+ "grad_norm": 0.0042724609375,
3434
+ "learning_rate": 6.666666666666667e-07,
3435
+ "loss": 0.045,
3436
+ "step": 4850
3437
+ },
3438
+ {
3439
+ "epoch": 1.52,
3440
+ "grad_norm": 0.00116729736328125,
3441
+ "learning_rate": 6.222222222222223e-07,
3442
+ "loss": 0.006,
3443
+ "step": 4860
3444
+ },
3445
+ {
3446
+ "epoch": 1.53,
3447
+ "grad_norm": 0.0009918212890625,
3448
+ "learning_rate": 5.777777777777778e-07,
3449
+ "loss": 0.0579,
3450
+ "step": 4870
3451
+ },
3452
+ {
3453
+ "epoch": 1.53,
3454
+ "grad_norm": 4.625,
3455
+ "learning_rate": 5.333333333333335e-07,
3456
+ "loss": 0.0106,
3457
+ "step": 4880
3458
+ },
3459
+ {
3460
+ "epoch": 1.53,
3461
+ "grad_norm": 19.625,
3462
+ "learning_rate": 4.88888888888889e-07,
3463
+ "loss": 0.0563,
3464
+ "step": 4890
3465
+ },
3466
+ {
3467
+ "epoch": 1.54,
3468
+ "grad_norm": 0.0010528564453125,
3469
+ "learning_rate": 4.444444444444445e-07,
3470
+ "loss": 0.0234,
3471
+ "step": 4900
3472
+ },
3473
+ {
3474
+ "epoch": 1.54,
3475
+ "grad_norm": 0.00119781494140625,
3476
+ "learning_rate": 4.0000000000000003e-07,
3477
+ "loss": 0.0747,
3478
+ "step": 4910
3479
+ },
3480
+ {
3481
+ "epoch": 1.54,
3482
+ "grad_norm": 0.00396728515625,
3483
+ "learning_rate": 3.555555555555556e-07,
3484
+ "loss": 0.0097,
3485
+ "step": 4920
3486
+ },
3487
+ {
3488
+ "epoch": 1.54,
3489
+ "grad_norm": 0.001007080078125,
3490
+ "learning_rate": 3.111111111111111e-07,
3491
+ "loss": 0.0202,
3492
+ "step": 4930
3493
+ },
3494
+ {
3495
+ "epoch": 1.55,
3496
+ "grad_norm": 0.0011138916015625,
3497
+ "learning_rate": 2.666666666666667e-07,
3498
+ "loss": 0.0065,
3499
+ "step": 4940
3500
+ },
3501
+ {
3502
+ "epoch": 1.55,
3503
+ "grad_norm": 0.00115966796875,
3504
+ "learning_rate": 2.2222222222222224e-07,
3505
+ "loss": 0.0173,
3506
+ "step": 4950
3507
+ },
3508
+ {
3509
+ "epoch": 1.55,
3510
+ "grad_norm": 0.001800537109375,
3511
+ "learning_rate": 1.777777777777778e-07,
3512
+ "loss": 0.0358,
3513
+ "step": 4960
3514
+ },
3515
+ {
3516
+ "epoch": 1.56,
3517
+ "grad_norm": 0.00179290771484375,
3518
+ "learning_rate": 1.3333333333333336e-07,
3519
+ "loss": 0.0396,
3520
+ "step": 4970
3521
+ },
3522
+ {
3523
+ "epoch": 1.56,
3524
+ "grad_norm": 0.00118255615234375,
3525
+ "learning_rate": 8.88888888888889e-08,
3526
+ "loss": 0.0155,
3527
+ "step": 4980
3528
+ },
3529
+ {
3530
+ "epoch": 1.56,
3531
+ "grad_norm": 0.00494384765625,
3532
+ "learning_rate": 4.444444444444445e-08,
3533
+ "loss": 0.0573,
3534
+ "step": 4990
3535
+ },
3536
+ {
3537
+ "epoch": 1.57,
3538
+ "grad_norm": 0.0018463134765625,
3539
+ "learning_rate": 0.0,
3540
+ "loss": 0.0309,
3541
+ "step": 5000
3542
+ },
3543
+ {
3544
+ "epoch": 1.57,
3545
+ "eval_loss": 0.019992012530565262,
3546
+ "eval_runtime": 53.6022,
3547
+ "eval_samples_per_second": 18.656,
3548
+ "eval_steps_per_second": 18.656,
3549
+ "step": 5000
3550
  }
3551
  ],
3552
  "logging_steps": 10,
 
3554
  "num_input_tokens_seen": 0,
3555
  "num_train_epochs": 2,
3556
  "save_steps": 1000,
3557
+ "total_flos": 7.866849165312e+16,
3558
  "train_batch_size": 1,
3559
  "trial_name": null,
3560
  "trial_params": null