fats-fme commited on
Commit
252e7e4
1 Parent(s): 72f2af9

Training in progress, step 603, checkpoint

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3c66af201cb46ea48affe25fb60a01d856a9c1e55da9025eceeb12b4646d97a3
3
  size 101184122
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:816c4df0d8b8e012e0f09ffc6fdf9ccdccf3e7710fcab9b3c9e32dc9253071c0
3
  size 101184122
last-checkpoint/rng_state_0.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b2e15289dd51850b5a4dbc37418946479cd95b898dc0f170f28090e10a296940
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:be613d3fe8e245e7abd0f538f5bdef3d1876d27be56d06ed45314f9b72f85fde
3
  size 14512
last-checkpoint/rng_state_1.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4d06506b9f2dd31a09d0da656752ae957a35f8f281429519bfaef30401c384c3
3
  size 14512
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a47fc2ac671fb35eea71ae222e402f44674cb96ad093aaf574572f31279bbbfa
3
  size 14512
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f3db034fd3734680c05eeb36af77b84676a988b958f10cc056cb79e17603f274
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7664ab897ed124bbeb09cf4530c0e76a35f6774388ff7703c1e60c754fa9fc97
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.5014031805425632,
5
  "eval_steps": 201,
6
- "global_step": 402,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2845,6 +2845,1421 @@
2845
  "eval_samples_per_second": 22.312,
2846
  "eval_steps_per_second": 5.582,
2847
  "step": 402
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2848
  }
2849
  ],
2850
  "logging_steps": 1,
@@ -2864,7 +4279,7 @@
2864
  "attributes": {}
2865
  }
2866
  },
2867
- "total_flos": 1.655997012513915e+17,
2868
  "train_batch_size": 2,
2869
  "trial_name": null,
2870
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.7521047708138447,
5
  "eval_steps": 201,
6
+ "global_step": 603,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2845
  "eval_samples_per_second": 22.312,
2846
  "eval_steps_per_second": 5.582,
2847
  "step": 402
2848
+ },
2849
+ {
2850
+ "epoch": 0.5026504521359526,
2851
+ "grad_norm": NaN,
2852
+ "learning_rate": 0.00010939833731574967,
2853
+ "loss": 0.0,
2854
+ "step": 403
2855
+ },
2856
+ {
2857
+ "epoch": 0.503897723729342,
2858
+ "grad_norm": NaN,
2859
+ "learning_rate": 0.00010898178662706471,
2860
+ "loss": 0.0,
2861
+ "step": 404
2862
+ },
2863
+ {
2864
+ "epoch": 0.5051449953227315,
2865
+ "grad_norm": NaN,
2866
+ "learning_rate": 0.00010856507876392166,
2867
+ "loss": 0.0,
2868
+ "step": 405
2869
+ },
2870
+ {
2871
+ "epoch": 0.5063922669161209,
2872
+ "grad_norm": NaN,
2873
+ "learning_rate": 0.00010814822101839224,
2874
+ "loss": 0.0,
2875
+ "step": 406
2876
+ },
2877
+ {
2878
+ "epoch": 0.5076395385095105,
2879
+ "grad_norm": NaN,
2880
+ "learning_rate": 0.00010773122068517103,
2881
+ "loss": 0.0,
2882
+ "step": 407
2883
+ },
2884
+ {
2885
+ "epoch": 0.5088868101028999,
2886
+ "grad_norm": NaN,
2887
+ "learning_rate": 0.00010731408506144782,
2888
+ "loss": 0.0,
2889
+ "step": 408
2890
+ },
2891
+ {
2892
+ "epoch": 0.5101340816962894,
2893
+ "grad_norm": NaN,
2894
+ "learning_rate": 0.00010689682144677983,
2895
+ "loss": 0.0,
2896
+ "step": 409
2897
+ },
2898
+ {
2899
+ "epoch": 0.5113813532896788,
2900
+ "grad_norm": NaN,
2901
+ "learning_rate": 0.00010647943714296405,
2902
+ "loss": 0.0,
2903
+ "step": 410
2904
+ },
2905
+ {
2906
+ "epoch": 0.5126286248830683,
2907
+ "grad_norm": NaN,
2908
+ "learning_rate": 0.00010606193945390943,
2909
+ "loss": 0.0,
2910
+ "step": 411
2911
+ },
2912
+ {
2913
+ "epoch": 0.5138758964764577,
2914
+ "grad_norm": NaN,
2915
+ "learning_rate": 0.00010564433568550909,
2916
+ "loss": 0.0,
2917
+ "step": 412
2918
+ },
2919
+ {
2920
+ "epoch": 0.5151231680698473,
2921
+ "grad_norm": NaN,
2922
+ "learning_rate": 0.00010522663314551247,
2923
+ "loss": 0.0,
2924
+ "step": 413
2925
+ },
2926
+ {
2927
+ "epoch": 0.5163704396632367,
2928
+ "grad_norm": NaN,
2929
+ "learning_rate": 0.00010480883914339736,
2930
+ "loss": 0.0,
2931
+ "step": 414
2932
+ },
2933
+ {
2934
+ "epoch": 0.5176177112566261,
2935
+ "grad_norm": NaN,
2936
+ "learning_rate": 0.0001043909609902422,
2937
+ "loss": 0.0,
2938
+ "step": 415
2939
+ },
2940
+ {
2941
+ "epoch": 0.5188649828500156,
2942
+ "grad_norm": NaN,
2943
+ "learning_rate": 0.00010397300599859785,
2944
+ "loss": 0.0,
2945
+ "step": 416
2946
+ },
2947
+ {
2948
+ "epoch": 0.520112254443405,
2949
+ "grad_norm": NaN,
2950
+ "learning_rate": 0.00010355498148235996,
2951
+ "loss": 0.0,
2952
+ "step": 417
2953
+ },
2954
+ {
2955
+ "epoch": 0.5213595260367945,
2956
+ "grad_norm": NaN,
2957
+ "learning_rate": 0.00010313689475664063,
2958
+ "loss": 0.0,
2959
+ "step": 418
2960
+ },
2961
+ {
2962
+ "epoch": 0.522606797630184,
2963
+ "grad_norm": NaN,
2964
+ "learning_rate": 0.0001027187531376407,
2965
+ "loss": 0.0,
2966
+ "step": 419
2967
+ },
2968
+ {
2969
+ "epoch": 0.5238540692235735,
2970
+ "grad_norm": NaN,
2971
+ "learning_rate": 0.00010230056394252161,
2972
+ "loss": 0.0,
2973
+ "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.5251013408169629,
2977
+ "grad_norm": NaN,
2978
+ "learning_rate": 0.00010188233448927724,
2979
+ "loss": 0.0,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.5263486124103524,
2984
+ "grad_norm": NaN,
2985
+ "learning_rate": 0.00010146407209660607,
2986
+ "loss": 0.0,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.5275958840037418,
2991
+ "grad_norm": NaN,
2992
+ "learning_rate": 0.00010104578408378289,
2993
+ "loss": 0.0,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.5288431555971312,
2998
+ "grad_norm": NaN,
2999
+ "learning_rate": 0.00010062747777053094,
3000
+ "loss": 0.0,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.5300904271905207,
3005
+ "grad_norm": NaN,
3006
+ "learning_rate": 0.00010020916047689358,
3007
+ "loss": 0.0,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.5313376987839102,
3012
+ "grad_norm": NaN,
3013
+ "learning_rate": 9.979083952310643e-05,
3014
+ "loss": 0.0,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.5325849703772997,
3019
+ "grad_norm": NaN,
3020
+ "learning_rate": 9.937252222946908e-05,
3021
+ "loss": 0.0,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.5338322419706891,
3026
+ "grad_norm": NaN,
3027
+ "learning_rate": 9.895421591621712e-05,
3028
+ "loss": 0.0,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.5350795135640786,
3033
+ "grad_norm": NaN,
3034
+ "learning_rate": 9.853592790339396e-05,
3035
+ "loss": 0.0,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.536326785157468,
3040
+ "grad_norm": NaN,
3041
+ "learning_rate": 9.811766551072278e-05,
3042
+ "loss": 0.0,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.5375740567508575,
3047
+ "grad_norm": NaN,
3048
+ "learning_rate": 9.769943605747844e-05,
3049
+ "loss": 0.0,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.538821328344247,
3054
+ "grad_norm": NaN,
3055
+ "learning_rate": 9.72812468623593e-05,
3056
+ "loss": 0.0,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.5400685999376365,
3061
+ "grad_norm": NaN,
3062
+ "learning_rate": 9.686310524335938e-05,
3063
+ "loss": 0.0,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.5413158715310259,
3068
+ "grad_norm": NaN,
3069
+ "learning_rate": 9.644501851764007e-05,
3070
+ "loss": 0.0,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.5425631431244153,
3075
+ "grad_norm": NaN,
3076
+ "learning_rate": 9.602699400140218e-05,
3077
+ "loss": 0.0,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.5438104147178048,
3082
+ "grad_norm": NaN,
3083
+ "learning_rate": 9.560903900975785e-05,
3084
+ "loss": 0.0,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.5450576863111942,
3089
+ "grad_norm": NaN,
3090
+ "learning_rate": 9.519116085660267e-05,
3091
+ "loss": 0.0,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.5463049579045838,
3096
+ "grad_norm": NaN,
3097
+ "learning_rate": 9.477336685448754e-05,
3098
+ "loss": 0.0,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.5475522294979732,
3103
+ "grad_norm": NaN,
3104
+ "learning_rate": 9.435566431449092e-05,
3105
+ "loss": 0.0,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.5487995010913627,
3110
+ "grad_norm": NaN,
3111
+ "learning_rate": 9.39380605460906e-05,
3112
+ "loss": 0.0,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.5500467726847521,
3117
+ "grad_norm": NaN,
3118
+ "learning_rate": 9.352056285703599e-05,
3119
+ "loss": 0.0,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.5512940442781415,
3124
+ "grad_norm": NaN,
3125
+ "learning_rate": 9.31031785532202e-05,
3126
+ "loss": 0.0,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.552541315871531,
3131
+ "grad_norm": NaN,
3132
+ "learning_rate": 9.268591493855222e-05,
3133
+ "loss": 0.0,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.5537885874649204,
3138
+ "grad_norm": NaN,
3139
+ "learning_rate": 9.226877931482898e-05,
3140
+ "loss": 0.0,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.55503585905831,
3145
+ "grad_norm": NaN,
3146
+ "learning_rate": 9.18517789816078e-05,
3147
+ "loss": 0.0,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.5562831306516994,
3152
+ "grad_norm": NaN,
3153
+ "learning_rate": 9.143492123607838e-05,
3154
+ "loss": 0.0,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.5575304022450889,
3159
+ "grad_norm": NaN,
3160
+ "learning_rate": 9.101821337293532e-05,
3161
+ "loss": 0.0,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.5587776738384783,
3166
+ "grad_norm": NaN,
3167
+ "learning_rate": 9.060166268425038e-05,
3168
+ "loss": 0.0,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.5600249454318678,
3173
+ "grad_norm": NaN,
3174
+ "learning_rate": 9.018527645934488e-05,
3175
+ "loss": 0.0,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.5612722170252572,
3180
+ "grad_norm": NaN,
3181
+ "learning_rate": 8.976906198466213e-05,
3182
+ "loss": 0.0,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.5625194886186468,
3187
+ "grad_norm": NaN,
3188
+ "learning_rate": 8.935302654364e-05,
3189
+ "loss": 0.0,
3190
+ "step": 451
3191
+ },
3192
+ {
3193
+ "epoch": 0.5637667602120362,
3194
+ "grad_norm": NaN,
3195
+ "learning_rate": 8.893717741658336e-05,
3196
+ "loss": 0.0,
3197
+ "step": 452
3198
+ },
3199
+ {
3200
+ "epoch": 0.5650140318054256,
3201
+ "grad_norm": NaN,
3202
+ "learning_rate": 8.852152188053674e-05,
3203
+ "loss": 0.0,
3204
+ "step": 453
3205
+ },
3206
+ {
3207
+ "epoch": 0.5662613033988151,
3208
+ "grad_norm": NaN,
3209
+ "learning_rate": 8.810606720915697e-05,
3210
+ "loss": 0.0,
3211
+ "step": 454
3212
+ },
3213
+ {
3214
+ "epoch": 0.5675085749922045,
3215
+ "grad_norm": NaN,
3216
+ "learning_rate": 8.769082067258585e-05,
3217
+ "loss": 0.0,
3218
+ "step": 455
3219
+ },
3220
+ {
3221
+ "epoch": 0.568755846585594,
3222
+ "grad_norm": NaN,
3223
+ "learning_rate": 8.727578953732303e-05,
3224
+ "loss": 0.0,
3225
+ "step": 456
3226
+ },
3227
+ {
3228
+ "epoch": 0.5700031181789835,
3229
+ "grad_norm": NaN,
3230
+ "learning_rate": 8.686098106609889e-05,
3231
+ "loss": 0.0,
3232
+ "step": 457
3233
+ },
3234
+ {
3235
+ "epoch": 0.571250389772373,
3236
+ "grad_norm": NaN,
3237
+ "learning_rate": 8.644640251774722e-05,
3238
+ "loss": 0.0,
3239
+ "step": 458
3240
+ },
3241
+ {
3242
+ "epoch": 0.5724976613657624,
3243
+ "grad_norm": NaN,
3244
+ "learning_rate": 8.603206114707837e-05,
3245
+ "loss": 0.0,
3246
+ "step": 459
3247
+ },
3248
+ {
3249
+ "epoch": 0.5737449329591519,
3250
+ "grad_norm": NaN,
3251
+ "learning_rate": 8.561796420475227e-05,
3252
+ "loss": 0.0,
3253
+ "step": 460
3254
+ },
3255
+ {
3256
+ "epoch": 0.5749922045525413,
3257
+ "grad_norm": NaN,
3258
+ "learning_rate": 8.52041189371515e-05,
3259
+ "loss": 0.0,
3260
+ "step": 461
3261
+ },
3262
+ {
3263
+ "epoch": 0.5762394761459307,
3264
+ "grad_norm": NaN,
3265
+ "learning_rate": 8.479053258625467e-05,
3266
+ "loss": 0.0,
3267
+ "step": 462
3268
+ },
3269
+ {
3270
+ "epoch": 0.5774867477393202,
3271
+ "grad_norm": NaN,
3272
+ "learning_rate": 8.437721238950938e-05,
3273
+ "loss": 0.0,
3274
+ "step": 463
3275
+ },
3276
+ {
3277
+ "epoch": 0.5787340193327097,
3278
+ "grad_norm": NaN,
3279
+ "learning_rate": 8.396416557970576e-05,
3280
+ "loss": 0.0,
3281
+ "step": 464
3282
+ },
3283
+ {
3284
+ "epoch": 0.5799812909260992,
3285
+ "grad_norm": NaN,
3286
+ "learning_rate": 8.355139938484995e-05,
3287
+ "loss": 0.0,
3288
+ "step": 465
3289
+ },
3290
+ {
3291
+ "epoch": 0.5812285625194886,
3292
+ "grad_norm": NaN,
3293
+ "learning_rate": 8.313892102803749e-05,
3294
+ "loss": 0.0,
3295
+ "step": 466
3296
+ },
3297
+ {
3298
+ "epoch": 0.5824758341128781,
3299
+ "grad_norm": NaN,
3300
+ "learning_rate": 8.272673772732695e-05,
3301
+ "loss": 0.0,
3302
+ "step": 467
3303
+ },
3304
+ {
3305
+ "epoch": 0.5837231057062675,
3306
+ "grad_norm": NaN,
3307
+ "learning_rate": 8.231485669561371e-05,
3308
+ "loss": 0.0,
3309
+ "step": 468
3310
+ },
3311
+ {
3312
+ "epoch": 0.584970377299657,
3313
+ "grad_norm": NaN,
3314
+ "learning_rate": 8.190328514050365e-05,
3315
+ "loss": 0.0,
3316
+ "step": 469
3317
+ },
3318
+ {
3319
+ "epoch": 0.5862176488930465,
3320
+ "grad_norm": NaN,
3321
+ "learning_rate": 8.1492030264187e-05,
3322
+ "loss": 0.0,
3323
+ "step": 470
3324
+ },
3325
+ {
3326
+ "epoch": 0.587464920486436,
3327
+ "grad_norm": NaN,
3328
+ "learning_rate": 8.108109926331238e-05,
3329
+ "loss": 0.0,
3330
+ "step": 471
3331
+ },
3332
+ {
3333
+ "epoch": 0.5887121920798254,
3334
+ "grad_norm": NaN,
3335
+ "learning_rate": 8.067049932886084e-05,
3336
+ "loss": 0.0,
3337
+ "step": 472
3338
+ },
3339
+ {
3340
+ "epoch": 0.5899594636732148,
3341
+ "grad_norm": NaN,
3342
+ "learning_rate": 8.026023764601999e-05,
3343
+ "loss": 0.0,
3344
+ "step": 473
3345
+ },
3346
+ {
3347
+ "epoch": 0.5912067352666043,
3348
+ "grad_norm": NaN,
3349
+ "learning_rate": 7.985032139405836e-05,
3350
+ "loss": 0.0,
3351
+ "step": 474
3352
+ },
3353
+ {
3354
+ "epoch": 0.5924540068599937,
3355
+ "grad_norm": NaN,
3356
+ "learning_rate": 7.944075774619963e-05,
3357
+ "loss": 0.0,
3358
+ "step": 475
3359
+ },
3360
+ {
3361
+ "epoch": 0.5937012784533833,
3362
+ "grad_norm": NaN,
3363
+ "learning_rate": 7.903155386949723e-05,
3364
+ "loss": 0.0,
3365
+ "step": 476
3366
+ },
3367
+ {
3368
+ "epoch": 0.5949485500467727,
3369
+ "grad_norm": NaN,
3370
+ "learning_rate": 7.862271692470884e-05,
3371
+ "loss": 0.0,
3372
+ "step": 477
3373
+ },
3374
+ {
3375
+ "epoch": 0.5961958216401622,
3376
+ "grad_norm": NaN,
3377
+ "learning_rate": 7.821425406617106e-05,
3378
+ "loss": 0.0,
3379
+ "step": 478
3380
+ },
3381
+ {
3382
+ "epoch": 0.5974430932335516,
3383
+ "grad_norm": NaN,
3384
+ "learning_rate": 7.780617244167432e-05,
3385
+ "loss": 0.0,
3386
+ "step": 479
3387
+ },
3388
+ {
3389
+ "epoch": 0.598690364826941,
3390
+ "grad_norm": NaN,
3391
+ "learning_rate": 7.739847919233781e-05,
3392
+ "loss": 0.0,
3393
+ "step": 480
3394
+ },
3395
+ {
3396
+ "epoch": 0.5999376364203305,
3397
+ "grad_norm": NaN,
3398
+ "learning_rate": 7.699118145248434e-05,
3399
+ "loss": 0.0,
3400
+ "step": 481
3401
+ },
3402
+ {
3403
+ "epoch": 0.60118490801372,
3404
+ "grad_norm": NaN,
3405
+ "learning_rate": 7.658428634951562e-05,
3406
+ "loss": 0.0,
3407
+ "step": 482
3408
+ },
3409
+ {
3410
+ "epoch": 0.6024321796071095,
3411
+ "grad_norm": NaN,
3412
+ "learning_rate": 7.617780100378756e-05,
3413
+ "loss": 0.0,
3414
+ "step": 483
3415
+ },
3416
+ {
3417
+ "epoch": 0.6036794512004989,
3418
+ "grad_norm": NaN,
3419
+ "learning_rate": 7.57717325284856e-05,
3420
+ "loss": 0.0,
3421
+ "step": 484
3422
+ },
3423
+ {
3424
+ "epoch": 0.6049267227938884,
3425
+ "grad_norm": NaN,
3426
+ "learning_rate": 7.536608802950027e-05,
3427
+ "loss": 0.0,
3428
+ "step": 485
3429
+ },
3430
+ {
3431
+ "epoch": 0.6061739943872778,
3432
+ "grad_norm": NaN,
3433
+ "learning_rate": 7.496087460530285e-05,
3434
+ "loss": 0.0,
3435
+ "step": 486
3436
+ },
3437
+ {
3438
+ "epoch": 0.6074212659806673,
3439
+ "grad_norm": NaN,
3440
+ "learning_rate": 7.455609934682116e-05,
3441
+ "loss": 0.0,
3442
+ "step": 487
3443
+ },
3444
+ {
3445
+ "epoch": 0.6086685375740567,
3446
+ "grad_norm": NaN,
3447
+ "learning_rate": 7.415176933731536e-05,
3448
+ "loss": 0.0,
3449
+ "step": 488
3450
+ },
3451
+ {
3452
+ "epoch": 0.6099158091674463,
3453
+ "grad_norm": NaN,
3454
+ "learning_rate": 7.374789165225416e-05,
3455
+ "loss": 0.0,
3456
+ "step": 489
3457
+ },
3458
+ {
3459
+ "epoch": 0.6111630807608357,
3460
+ "grad_norm": NaN,
3461
+ "learning_rate": 7.334447335919096e-05,
3462
+ "loss": 0.0,
3463
+ "step": 490
3464
+ },
3465
+ {
3466
+ "epoch": 0.6124103523542251,
3467
+ "grad_norm": NaN,
3468
+ "learning_rate": 7.294152151764006e-05,
3469
+ "loss": 0.0,
3470
+ "step": 491
3471
+ },
3472
+ {
3473
+ "epoch": 0.6136576239476146,
3474
+ "grad_norm": NaN,
3475
+ "learning_rate": 7.253904317895332e-05,
3476
+ "loss": 0.0,
3477
+ "step": 492
3478
+ },
3479
+ {
3480
+ "epoch": 0.614904895541004,
3481
+ "grad_norm": NaN,
3482
+ "learning_rate": 7.21370453861966e-05,
3483
+ "loss": 0.0,
3484
+ "step": 493
3485
+ },
3486
+ {
3487
+ "epoch": 0.6161521671343935,
3488
+ "grad_norm": NaN,
3489
+ "learning_rate": 7.173553517402652e-05,
3490
+ "loss": 0.0,
3491
+ "step": 494
3492
+ },
3493
+ {
3494
+ "epoch": 0.617399438727783,
3495
+ "grad_norm": NaN,
3496
+ "learning_rate": 7.133451956856751e-05,
3497
+ "loss": 0.0,
3498
+ "step": 495
3499
+ },
3500
+ {
3501
+ "epoch": 0.6186467103211725,
3502
+ "grad_norm": NaN,
3503
+ "learning_rate": 7.093400558728871e-05,
3504
+ "loss": 0.0,
3505
+ "step": 496
3506
+ },
3507
+ {
3508
+ "epoch": 0.6198939819145619,
3509
+ "grad_norm": NaN,
3510
+ "learning_rate": 7.053400023888115e-05,
3511
+ "loss": 0.0,
3512
+ "step": 497
3513
+ },
3514
+ {
3515
+ "epoch": 0.6211412535079514,
3516
+ "grad_norm": NaN,
3517
+ "learning_rate": 7.013451052313534e-05,
3518
+ "loss": 0.0,
3519
+ "step": 498
3520
+ },
3521
+ {
3522
+ "epoch": 0.6223885251013408,
3523
+ "grad_norm": NaN,
3524
+ "learning_rate": 6.973554343081846e-05,
3525
+ "loss": 0.0,
3526
+ "step": 499
3527
+ },
3528
+ {
3529
+ "epoch": 0.6236357966947302,
3530
+ "grad_norm": NaN,
3531
+ "learning_rate": 6.933710594355225e-05,
3532
+ "loss": 0.0,
3533
+ "step": 500
3534
+ },
3535
+ {
3536
+ "epoch": 0.6248830682881198,
3537
+ "grad_norm": NaN,
3538
+ "learning_rate": 6.893920503369068e-05,
3539
+ "loss": 0.0,
3540
+ "step": 501
3541
+ },
3542
+ {
3543
+ "epoch": 0.6261303398815092,
3544
+ "grad_norm": NaN,
3545
+ "learning_rate": 6.854184766419812e-05,
3546
+ "loss": 0.0,
3547
+ "step": 502
3548
+ },
3549
+ {
3550
+ "epoch": 0.6273776114748987,
3551
+ "grad_norm": NaN,
3552
+ "learning_rate": 6.814504078852729e-05,
3553
+ "loss": 0.0,
3554
+ "step": 503
3555
+ },
3556
+ {
3557
+ "epoch": 0.6286248830682881,
3558
+ "grad_norm": NaN,
3559
+ "learning_rate": 6.774879135049787e-05,
3560
+ "loss": 0.0,
3561
+ "step": 504
3562
+ },
3563
+ {
3564
+ "epoch": 0.6298721546616776,
3565
+ "grad_norm": NaN,
3566
+ "learning_rate": 6.735310628417461e-05,
3567
+ "loss": 0.0,
3568
+ "step": 505
3569
+ },
3570
+ {
3571
+ "epoch": 0.631119426255067,
3572
+ "grad_norm": NaN,
3573
+ "learning_rate": 6.695799251374625e-05,
3574
+ "loss": 0.0,
3575
+ "step": 506
3576
+ },
3577
+ {
3578
+ "epoch": 0.6323666978484564,
3579
+ "grad_norm": NaN,
3580
+ "learning_rate": 6.656345695340431e-05,
3581
+ "loss": 0.0,
3582
+ "step": 507
3583
+ },
3584
+ {
3585
+ "epoch": 0.633613969441846,
3586
+ "grad_norm": NaN,
3587
+ "learning_rate": 6.616950650722205e-05,
3588
+ "loss": 0.0,
3589
+ "step": 508
3590
+ },
3591
+ {
3592
+ "epoch": 0.6348612410352354,
3593
+ "grad_norm": NaN,
3594
+ "learning_rate": 6.577614806903365e-05,
3595
+ "loss": 0.0,
3596
+ "step": 509
3597
+ },
3598
+ {
3599
+ "epoch": 0.6361085126286249,
3600
+ "grad_norm": NaN,
3601
+ "learning_rate": 6.538338852231367e-05,
3602
+ "loss": 0.0,
3603
+ "step": 510
3604
+ },
3605
+ {
3606
+ "epoch": 0.6373557842220143,
3607
+ "grad_norm": NaN,
3608
+ "learning_rate": 6.499123474005647e-05,
3609
+ "loss": 0.0,
3610
+ "step": 511
3611
+ },
3612
+ {
3613
+ "epoch": 0.6386030558154038,
3614
+ "grad_norm": NaN,
3615
+ "learning_rate": 6.4599693584656e-05,
3616
+ "loss": 0.0,
3617
+ "step": 512
3618
+ },
3619
+ {
3620
+ "epoch": 0.6398503274087932,
3621
+ "grad_norm": NaN,
3622
+ "learning_rate": 6.420877190778569e-05,
3623
+ "loss": 0.0,
3624
+ "step": 513
3625
+ },
3626
+ {
3627
+ "epoch": 0.6410975990021828,
3628
+ "grad_norm": NaN,
3629
+ "learning_rate": 6.381847655027864e-05,
3630
+ "loss": 0.0,
3631
+ "step": 514
3632
+ },
3633
+ {
3634
+ "epoch": 0.6423448705955722,
3635
+ "grad_norm": NaN,
3636
+ "learning_rate": 6.342881434200765e-05,
3637
+ "loss": 0.0,
3638
+ "step": 515
3639
+ },
3640
+ {
3641
+ "epoch": 0.6435921421889617,
3642
+ "grad_norm": NaN,
3643
+ "learning_rate": 6.303979210176614e-05,
3644
+ "loss": 0.0,
3645
+ "step": 516
3646
+ },
3647
+ {
3648
+ "epoch": 0.6448394137823511,
3649
+ "grad_norm": NaN,
3650
+ "learning_rate": 6.26514166371484e-05,
3651
+ "loss": 0.0,
3652
+ "step": 517
3653
+ },
3654
+ {
3655
+ "epoch": 0.6460866853757405,
3656
+ "grad_norm": NaN,
3657
+ "learning_rate": 6.226369474443072e-05,
3658
+ "loss": 0.0,
3659
+ "step": 518
3660
+ },
3661
+ {
3662
+ "epoch": 0.64733395696913,
3663
+ "grad_norm": NaN,
3664
+ "learning_rate": 6.18766332084523e-05,
3665
+ "loss": 0.0,
3666
+ "step": 519
3667
+ },
3668
+ {
3669
+ "epoch": 0.6485812285625195,
3670
+ "grad_norm": NaN,
3671
+ "learning_rate": 6.149023880249665e-05,
3672
+ "loss": 0.0,
3673
+ "step": 520
3674
+ },
3675
+ {
3676
+ "epoch": 0.649828500155909,
3677
+ "grad_norm": NaN,
3678
+ "learning_rate": 6.110451828817298e-05,
3679
+ "loss": 0.0,
3680
+ "step": 521
3681
+ },
3682
+ {
3683
+ "epoch": 0.6510757717492984,
3684
+ "grad_norm": NaN,
3685
+ "learning_rate": 6.071947841529801e-05,
3686
+ "loss": 0.0,
3687
+ "step": 522
3688
+ },
3689
+ {
3690
+ "epoch": 0.6523230433426879,
3691
+ "grad_norm": NaN,
3692
+ "learning_rate": 6.03351259217776e-05,
3693
+ "loss": 0.0,
3694
+ "step": 523
3695
+ },
3696
+ {
3697
+ "epoch": 0.6535703149360773,
3698
+ "grad_norm": NaN,
3699
+ "learning_rate": 5.995146753348909e-05,
3700
+ "loss": 0.0,
3701
+ "step": 524
3702
+ },
3703
+ {
3704
+ "epoch": 0.6548175865294668,
3705
+ "grad_norm": NaN,
3706
+ "learning_rate": 5.9568509964163464e-05,
3707
+ "loss": 0.0,
3708
+ "step": 525
3709
+ },
3710
+ {
3711
+ "epoch": 0.6560648581228562,
3712
+ "grad_norm": NaN,
3713
+ "learning_rate": 5.9186259915267916e-05,
3714
+ "loss": 0.0,
3715
+ "step": 526
3716
+ },
3717
+ {
3718
+ "epoch": 0.6573121297162458,
3719
+ "grad_norm": NaN,
3720
+ "learning_rate": 5.880472407588857e-05,
3721
+ "loss": 0.0,
3722
+ "step": 527
3723
+ },
3724
+ {
3725
+ "epoch": 0.6585594013096352,
3726
+ "grad_norm": NaN,
3727
+ "learning_rate": 5.842390912261344e-05,
3728
+ "loss": 0.0,
3729
+ "step": 528
3730
+ },
3731
+ {
3732
+ "epoch": 0.6598066729030246,
3733
+ "grad_norm": NaN,
3734
+ "learning_rate": 5.8043821719415534e-05,
3735
+ "loss": 0.0,
3736
+ "step": 529
3737
+ },
3738
+ {
3739
+ "epoch": 0.6610539444964141,
3740
+ "grad_norm": NaN,
3741
+ "learning_rate": 5.7664468517536395e-05,
3742
+ "loss": 0.0,
3743
+ "step": 530
3744
+ },
3745
+ {
3746
+ "epoch": 0.6623012160898035,
3747
+ "grad_norm": NaN,
3748
+ "learning_rate": 5.728585615536946e-05,
3749
+ "loss": 0.0,
3750
+ "step": 531
3751
+ },
3752
+ {
3753
+ "epoch": 0.663548487683193,
3754
+ "grad_norm": NaN,
3755
+ "learning_rate": 5.6907991258344e-05,
3756
+ "loss": 0.0,
3757
+ "step": 532
3758
+ },
3759
+ {
3760
+ "epoch": 0.6647957592765825,
3761
+ "grad_norm": NaN,
3762
+ "learning_rate": 5.6530880438809494e-05,
3763
+ "loss": 0.0,
3764
+ "step": 533
3765
+ },
3766
+ {
3767
+ "epoch": 0.666043030869972,
3768
+ "grad_norm": NaN,
3769
+ "learning_rate": 5.615453029591935e-05,
3770
+ "loss": 0.0,
3771
+ "step": 534
3772
+ },
3773
+ {
3774
+ "epoch": 0.6672903024633614,
3775
+ "grad_norm": NaN,
3776
+ "learning_rate": 5.5778947415515784e-05,
3777
+ "loss": 0.0,
3778
+ "step": 535
3779
+ },
3780
+ {
3781
+ "epoch": 0.6685375740567508,
3782
+ "grad_norm": NaN,
3783
+ "learning_rate": 5.540413837001459e-05,
3784
+ "loss": 0.0,
3785
+ "step": 536
3786
+ },
3787
+ {
3788
+ "epoch": 0.6697848456501403,
3789
+ "grad_norm": NaN,
3790
+ "learning_rate": 5.50301097182899e-05,
3791
+ "loss": 0.0,
3792
+ "step": 537
3793
+ },
3794
+ {
3795
+ "epoch": 0.6710321172435297,
3796
+ "grad_norm": NaN,
3797
+ "learning_rate": 5.465686800555967e-05,
3798
+ "loss": 0.0,
3799
+ "step": 538
3800
+ },
3801
+ {
3802
+ "epoch": 0.6722793888369193,
3803
+ "grad_norm": NaN,
3804
+ "learning_rate": 5.4284419763271e-05,
3805
+ "loss": 0.0,
3806
+ "step": 539
3807
+ },
3808
+ {
3809
+ "epoch": 0.6735266604303087,
3810
+ "grad_norm": NaN,
3811
+ "learning_rate": 5.391277150898575e-05,
3812
+ "loss": 0.0,
3813
+ "step": 540
3814
+ },
3815
+ {
3816
+ "epoch": 0.6747739320236982,
3817
+ "grad_norm": NaN,
3818
+ "learning_rate": 5.354192974626674e-05,
3819
+ "loss": 0.0,
3820
+ "step": 541
3821
+ },
3822
+ {
3823
+ "epoch": 0.6760212036170876,
3824
+ "grad_norm": NaN,
3825
+ "learning_rate": 5.317190096456368e-05,
3826
+ "loss": 0.0,
3827
+ "step": 542
3828
+ },
3829
+ {
3830
+ "epoch": 0.6772684752104771,
3831
+ "grad_norm": NaN,
3832
+ "learning_rate": 5.2802691639099834e-05,
3833
+ "loss": 0.0,
3834
+ "step": 543
3835
+ },
3836
+ {
3837
+ "epoch": 0.6785157468038665,
3838
+ "grad_norm": NaN,
3839
+ "learning_rate": 5.24343082307585e-05,
3840
+ "loss": 0.0,
3841
+ "step": 544
3842
+ },
3843
+ {
3844
+ "epoch": 0.679763018397256,
3845
+ "grad_norm": NaN,
3846
+ "learning_rate": 5.206675718597012e-05,
3847
+ "loss": 0.0,
3848
+ "step": 545
3849
+ },
3850
+ {
3851
+ "epoch": 0.6810102899906455,
3852
+ "grad_norm": NaN,
3853
+ "learning_rate": 5.1700044936599434e-05,
3854
+ "loss": 0.0,
3855
+ "step": 546
3856
+ },
3857
+ {
3858
+ "epoch": 0.6822575615840349,
3859
+ "grad_norm": NaN,
3860
+ "learning_rate": 5.133417789983277e-05,
3861
+ "loss": 0.0,
3862
+ "step": 547
3863
+ },
3864
+ {
3865
+ "epoch": 0.6835048331774244,
3866
+ "grad_norm": NaN,
3867
+ "learning_rate": 5.0969162478066055e-05,
3868
+ "loss": 0.0,
3869
+ "step": 548
3870
+ },
3871
+ {
3872
+ "epoch": 0.6847521047708138,
3873
+ "grad_norm": NaN,
3874
+ "learning_rate": 5.060500505879244e-05,
3875
+ "loss": 0.0,
3876
+ "step": 549
3877
+ },
3878
+ {
3879
+ "epoch": 0.6859993763642033,
3880
+ "grad_norm": NaN,
3881
+ "learning_rate": 5.0241712014490684e-05,
3882
+ "loss": 0.0,
3883
+ "step": 550
3884
+ },
3885
+ {
3886
+ "epoch": 0.6872466479575927,
3887
+ "grad_norm": NaN,
3888
+ "learning_rate": 4.9879289702513845e-05,
3889
+ "loss": 0.0,
3890
+ "step": 551
3891
+ },
3892
+ {
3893
+ "epoch": 0.6884939195509823,
3894
+ "grad_norm": NaN,
3895
+ "learning_rate": 4.95177444649776e-05,
3896
+ "loss": 0.0,
3897
+ "step": 552
3898
+ },
3899
+ {
3900
+ "epoch": 0.6897411911443717,
3901
+ "grad_norm": NaN,
3902
+ "learning_rate": 4.9157082628649545e-05,
3903
+ "loss": 0.0,
3904
+ "step": 553
3905
+ },
3906
+ {
3907
+ "epoch": 0.6909884627377612,
3908
+ "grad_norm": NaN,
3909
+ "learning_rate": 4.87973105048385e-05,
3910
+ "loss": 0.0,
3911
+ "step": 554
3912
+ },
3913
+ {
3914
+ "epoch": 0.6922357343311506,
3915
+ "grad_norm": NaN,
3916
+ "learning_rate": 4.8438434389283895e-05,
3917
+ "loss": 0.0,
3918
+ "step": 555
3919
+ },
3920
+ {
3921
+ "epoch": 0.69348300592454,
3922
+ "grad_norm": NaN,
3923
+ "learning_rate": 4.8080460562045736e-05,
3924
+ "loss": 0.0,
3925
+ "step": 556
3926
+ },
3927
+ {
3928
+ "epoch": 0.6947302775179295,
3929
+ "grad_norm": NaN,
3930
+ "learning_rate": 4.7723395287394746e-05,
3931
+ "loss": 0.0,
3932
+ "step": 557
3933
+ },
3934
+ {
3935
+ "epoch": 0.695977549111319,
3936
+ "grad_norm": NaN,
3937
+ "learning_rate": 4.736724481370248e-05,
3938
+ "loss": 0.0,
3939
+ "step": 558
3940
+ },
3941
+ {
3942
+ "epoch": 0.6972248207047085,
3943
+ "grad_norm": NaN,
3944
+ "learning_rate": 4.701201537333237e-05,
3945
+ "loss": 0.0,
3946
+ "step": 559
3947
+ },
3948
+ {
3949
+ "epoch": 0.6984720922980979,
3950
+ "grad_norm": NaN,
3951
+ "learning_rate": 4.6657713182530316e-05,
3952
+ "loss": 0.0,
3953
+ "step": 560
3954
+ },
3955
+ {
3956
+ "epoch": 0.6997193638914874,
3957
+ "grad_norm": NaN,
3958
+ "learning_rate": 4.630434444131615e-05,
3959
+ "loss": 0.0,
3960
+ "step": 561
3961
+ },
3962
+ {
3963
+ "epoch": 0.7009666354848768,
3964
+ "grad_norm": NaN,
3965
+ "learning_rate": 4.595191533337494e-05,
3966
+ "loss": 0.0,
3967
+ "step": 562
3968
+ },
3969
+ {
3970
+ "epoch": 0.7022139070782663,
3971
+ "grad_norm": NaN,
3972
+ "learning_rate": 4.560043202594899e-05,
3973
+ "loss": 0.0,
3974
+ "step": 563
3975
+ },
3976
+ {
3977
+ "epoch": 0.7034611786716558,
3978
+ "grad_norm": NaN,
3979
+ "learning_rate": 4.524990066972982e-05,
3980
+ "loss": 0.0,
3981
+ "step": 564
3982
+ },
3983
+ {
3984
+ "epoch": 0.7047084502650452,
3985
+ "grad_norm": NaN,
3986
+ "learning_rate": 4.4900327398750363e-05,
3987
+ "loss": 0.0,
3988
+ "step": 565
3989
+ },
3990
+ {
3991
+ "epoch": 0.7059557218584347,
3992
+ "grad_norm": NaN,
3993
+ "learning_rate": 4.4551718330278006e-05,
3994
+ "loss": 0.0,
3995
+ "step": 566
3996
+ },
3997
+ {
3998
+ "epoch": 0.7072029934518241,
3999
+ "grad_norm": NaN,
4000
+ "learning_rate": 4.4204079564707144e-05,
4001
+ "loss": 0.0,
4002
+ "step": 567
4003
+ },
4004
+ {
4005
+ "epoch": 0.7084502650452136,
4006
+ "grad_norm": NaN,
4007
+ "learning_rate": 4.3857417185452644e-05,
4008
+ "loss": 0.0,
4009
+ "step": 568
4010
+ },
4011
+ {
4012
+ "epoch": 0.709697536638603,
4013
+ "grad_norm": NaN,
4014
+ "learning_rate": 4.351173725884351e-05,
4015
+ "loss": 0.0,
4016
+ "step": 569
4017
+ },
4018
+ {
4019
+ "epoch": 0.7109448082319925,
4020
+ "grad_norm": NaN,
4021
+ "learning_rate": 4.3167045834016326e-05,
4022
+ "loss": 0.0,
4023
+ "step": 570
4024
+ },
4025
+ {
4026
+ "epoch": 0.712192079825382,
4027
+ "grad_norm": NaN,
4028
+ "learning_rate": 4.282334894280986e-05,
4029
+ "loss": 0.0,
4030
+ "step": 571
4031
+ },
4032
+ {
4033
+ "epoch": 0.7134393514187715,
4034
+ "grad_norm": NaN,
4035
+ "learning_rate": 4.2480652599659154e-05,
4036
+ "loss": 0.0,
4037
+ "step": 572
4038
+ },
4039
+ {
4040
+ "epoch": 0.7146866230121609,
4041
+ "grad_norm": NaN,
4042
+ "learning_rate": 4.213896280149041e-05,
4043
+ "loss": 0.0,
4044
+ "step": 573
4045
+ },
4046
+ {
4047
+ "epoch": 0.7159338946055503,
4048
+ "grad_norm": NaN,
4049
+ "learning_rate": 4.179828552761617e-05,
4050
+ "loss": 0.0,
4051
+ "step": 574
4052
+ },
4053
+ {
4054
+ "epoch": 0.7171811661989398,
4055
+ "grad_norm": NaN,
4056
+ "learning_rate": 4.1458626739630526e-05,
4057
+ "loss": 0.0,
4058
+ "step": 575
4059
+ },
4060
+ {
4061
+ "epoch": 0.7184284377923292,
4062
+ "grad_norm": NaN,
4063
+ "learning_rate": 4.1119992381304754e-05,
4064
+ "loss": 0.0,
4065
+ "step": 576
4066
+ },
4067
+ {
4068
+ "epoch": 0.7196757093857188,
4069
+ "grad_norm": NaN,
4070
+ "learning_rate": 4.078238837848352e-05,
4071
+ "loss": 0.0,
4072
+ "step": 577
4073
+ },
4074
+ {
4075
+ "epoch": 0.7209229809791082,
4076
+ "grad_norm": NaN,
4077
+ "learning_rate": 4.04458206389809e-05,
4078
+ "loss": 0.0,
4079
+ "step": 578
4080
+ },
4081
+ {
4082
+ "epoch": 0.7221702525724977,
4083
+ "grad_norm": NaN,
4084
+ "learning_rate": 4.011029505247732e-05,
4085
+ "loss": 0.0,
4086
+ "step": 579
4087
+ },
4088
+ {
4089
+ "epoch": 0.7234175241658871,
4090
+ "grad_norm": NaN,
4091
+ "learning_rate": 3.977581749041616e-05,
4092
+ "loss": 0.0,
4093
+ "step": 580
4094
+ },
4095
+ {
4096
+ "epoch": 0.7246647957592766,
4097
+ "grad_norm": NaN,
4098
+ "learning_rate": 3.9442393805901245e-05,
4099
+ "loss": 0.0,
4100
+ "step": 581
4101
+ },
4102
+ {
4103
+ "epoch": 0.725912067352666,
4104
+ "grad_norm": NaN,
4105
+ "learning_rate": 3.91100298335944e-05,
4106
+ "loss": 0.0,
4107
+ "step": 582
4108
+ },
4109
+ {
4110
+ "epoch": 0.7271593389460556,
4111
+ "grad_norm": NaN,
4112
+ "learning_rate": 3.877873138961311e-05,
4113
+ "loss": 0.0,
4114
+ "step": 583
4115
+ },
4116
+ {
4117
+ "epoch": 0.728406610539445,
4118
+ "grad_norm": NaN,
4119
+ "learning_rate": 3.844850427142914e-05,
4120
+ "loss": 0.0,
4121
+ "step": 584
4122
+ },
4123
+ {
4124
+ "epoch": 0.7296538821328344,
4125
+ "grad_norm": NaN,
4126
+ "learning_rate": 3.811935425776667e-05,
4127
+ "loss": 0.0,
4128
+ "step": 585
4129
+ },
4130
+ {
4131
+ "epoch": 0.7309011537262239,
4132
+ "grad_norm": NaN,
4133
+ "learning_rate": 3.779128710850151e-05,
4134
+ "loss": 0.0,
4135
+ "step": 586
4136
+ },
4137
+ {
4138
+ "epoch": 0.7321484253196133,
4139
+ "grad_norm": NaN,
4140
+ "learning_rate": 3.7464308564560106e-05,
4141
+ "loss": 0.0,
4142
+ "step": 587
4143
+ },
4144
+ {
4145
+ "epoch": 0.7333956969130028,
4146
+ "grad_norm": NaN,
4147
+ "learning_rate": 3.71384243478191e-05,
4148
+ "loss": 0.0,
4149
+ "step": 588
4150
+ },
4151
+ {
4152
+ "epoch": 0.7346429685063922,
4153
+ "grad_norm": NaN,
4154
+ "learning_rate": 3.681364016100535e-05,
4155
+ "loss": 0.0,
4156
+ "step": 589
4157
+ },
4158
+ {
4159
+ "epoch": 0.7358902400997818,
4160
+ "grad_norm": NaN,
4161
+ "learning_rate": 3.64899616875959e-05,
4162
+ "loss": 0.0,
4163
+ "step": 590
4164
+ },
4165
+ {
4166
+ "epoch": 0.7371375116931712,
4167
+ "grad_norm": NaN,
4168
+ "learning_rate": 3.616739459171866e-05,
4169
+ "loss": 0.0,
4170
+ "step": 591
4171
+ },
4172
+ {
4173
+ "epoch": 0.7383847832865607,
4174
+ "grad_norm": NaN,
4175
+ "learning_rate": 3.5845944518053376e-05,
4176
+ "loss": 0.0,
4177
+ "step": 592
4178
+ },
4179
+ {
4180
+ "epoch": 0.7396320548799501,
4181
+ "grad_norm": NaN,
4182
+ "learning_rate": 3.552561709173266e-05,
4183
+ "loss": 0.0,
4184
+ "step": 593
4185
+ },
4186
+ {
4187
+ "epoch": 0.7408793264733395,
4188
+ "grad_norm": NaN,
4189
+ "learning_rate": 3.520641791824374e-05,
4190
+ "loss": 0.0,
4191
+ "step": 594
4192
+ },
4193
+ {
4194
+ "epoch": 0.742126598066729,
4195
+ "grad_norm": NaN,
4196
+ "learning_rate": 3.488835258333014e-05,
4197
+ "loss": 0.0,
4198
+ "step": 595
4199
+ },
4200
+ {
4201
+ "epoch": 0.7433738696601185,
4202
+ "grad_norm": NaN,
4203
+ "learning_rate": 3.4571426652894144e-05,
4204
+ "loss": 0.0,
4205
+ "step": 596
4206
+ },
4207
+ {
4208
+ "epoch": 0.744621141253508,
4209
+ "grad_norm": NaN,
4210
+ "learning_rate": 3.4255645672899325e-05,
4211
+ "loss": 0.0,
4212
+ "step": 597
4213
+ },
4214
+ {
4215
+ "epoch": 0.7458684128468974,
4216
+ "grad_norm": NaN,
4217
+ "learning_rate": 3.3941015169273524e-05,
4218
+ "loss": 0.0,
4219
+ "step": 598
4220
+ },
4221
+ {
4222
+ "epoch": 0.7471156844402869,
4223
+ "grad_norm": NaN,
4224
+ "learning_rate": 3.362754064781202e-05,
4225
+ "loss": 0.0,
4226
+ "step": 599
4227
+ },
4228
+ {
4229
+ "epoch": 0.7483629560336763,
4230
+ "grad_norm": NaN,
4231
+ "learning_rate": 3.331522759408138e-05,
4232
+ "loss": 0.0,
4233
+ "step": 600
4234
+ },
4235
+ {
4236
+ "epoch": 0.7496102276270658,
4237
+ "grad_norm": NaN,
4238
+ "learning_rate": 3.300408147332327e-05,
4239
+ "loss": 0.0,
4240
+ "step": 601
4241
+ },
4242
+ {
4243
+ "epoch": 0.7508574992204553,
4244
+ "grad_norm": NaN,
4245
+ "learning_rate": 3.269410773035903e-05,
4246
+ "loss": 0.0,
4247
+ "step": 602
4248
+ },
4249
+ {
4250
+ "epoch": 0.7521047708138447,
4251
+ "grad_norm": NaN,
4252
+ "learning_rate": 3.238531178949417e-05,
4253
+ "loss": 0.0,
4254
+ "step": 603
4255
+ },
4256
+ {
4257
+ "epoch": 0.7521047708138447,
4258
+ "eval_loss": NaN,
4259
+ "eval_runtime": 60.7212,
4260
+ "eval_samples_per_second": 22.249,
4261
+ "eval_steps_per_second": 5.566,
4262
+ "step": 603
4263
  }
4264
  ],
4265
  "logging_steps": 1,
 
4279
  "attributes": {}
4280
  }
4281
  },
4282
+ "total_flos": 2.483866847590482e+17,
4283
  "train_batch_size": 2,
4284
  "trial_name": null,
4285
  "trial_params": null