hieptuyet1102 commited on
Commit
ef65ba6
1 Parent(s): 61354fe

add mm_projector

Browse files
Files changed (2) hide show
  1. mm_projector.bin +3 -0
  2. trainer_state.json +4071 -0
mm_projector.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2239b184d4e3e9209b6f39171aba1fe894a54182e837570f3e09a966d4559712
3
+ size 4200125
trainer_state.json ADDED
@@ -0,0 +1,4071 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 2.0243673851921273,
5
+ "eval_steps": 500,
6
+ "global_step": 1350,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.0,
13
+ "learning_rate": 3.3333333333333335e-05,
14
+ "loss": 4.2223,
15
+ "step": 2
16
+ },
17
+ {
18
+ "epoch": 0.01,
19
+ "learning_rate": 6.666666666666667e-05,
20
+ "loss": 4.0326,
21
+ "step": 4
22
+ },
23
+ {
24
+ "epoch": 0.01,
25
+ "learning_rate": 0.0001,
26
+ "loss": 3.8731,
27
+ "step": 6
28
+ },
29
+ {
30
+ "epoch": 0.01,
31
+ "learning_rate": 0.00013333333333333334,
32
+ "loss": 3.8352,
33
+ "step": 8
34
+ },
35
+ {
36
+ "epoch": 0.01,
37
+ "learning_rate": 0.00016666666666666666,
38
+ "loss": 3.5666,
39
+ "step": 10
40
+ },
41
+ {
42
+ "epoch": 0.02,
43
+ "learning_rate": 0.0002,
44
+ "loss": 3.5892,
45
+ "step": 12
46
+ },
47
+ {
48
+ "epoch": 0.02,
49
+ "learning_rate": 0.00023333333333333333,
50
+ "loss": 3.5963,
51
+ "step": 14
52
+ },
53
+ {
54
+ "epoch": 0.02,
55
+ "learning_rate": 0.0002666666666666667,
56
+ "loss": 3.5489,
57
+ "step": 16
58
+ },
59
+ {
60
+ "epoch": 0.03,
61
+ "learning_rate": 0.0003,
62
+ "loss": 3.5872,
63
+ "step": 18
64
+ },
65
+ {
66
+ "epoch": 0.03,
67
+ "learning_rate": 0.0003333333333333333,
68
+ "loss": 3.6327,
69
+ "step": 20
70
+ },
71
+ {
72
+ "epoch": 0.03,
73
+ "learning_rate": 0.00036666666666666667,
74
+ "loss": 3.5584,
75
+ "step": 22
76
+ },
77
+ {
78
+ "epoch": 0.04,
79
+ "learning_rate": 0.0004,
80
+ "loss": 3.6419,
81
+ "step": 24
82
+ },
83
+ {
84
+ "epoch": 0.04,
85
+ "learning_rate": 0.00043333333333333337,
86
+ "loss": 3.6445,
87
+ "step": 26
88
+ },
89
+ {
90
+ "epoch": 0.04,
91
+ "learning_rate": 0.00046666666666666666,
92
+ "loss": 3.6233,
93
+ "step": 28
94
+ },
95
+ {
96
+ "epoch": 0.04,
97
+ "learning_rate": 0.0005,
98
+ "loss": 3.5213,
99
+ "step": 30
100
+ },
101
+ {
102
+ "epoch": 0.05,
103
+ "learning_rate": 0.0005333333333333334,
104
+ "loss": 3.4406,
105
+ "step": 32
106
+ },
107
+ {
108
+ "epoch": 0.05,
109
+ "learning_rate": 0.0005666666666666667,
110
+ "loss": 3.4763,
111
+ "step": 34
112
+ },
113
+ {
114
+ "epoch": 0.05,
115
+ "learning_rate": 0.0006,
116
+ "loss": 3.457,
117
+ "step": 36
118
+ },
119
+ {
120
+ "epoch": 0.06,
121
+ "learning_rate": 0.0006333333333333333,
122
+ "loss": 3.5005,
123
+ "step": 38
124
+ },
125
+ {
126
+ "epoch": 0.06,
127
+ "learning_rate": 0.0006666666666666666,
128
+ "loss": 3.4486,
129
+ "step": 40
130
+ },
131
+ {
132
+ "epoch": 0.06,
133
+ "learning_rate": 0.0007,
134
+ "loss": 3.3947,
135
+ "step": 42
136
+ },
137
+ {
138
+ "epoch": 0.07,
139
+ "learning_rate": 0.0007333333333333333,
140
+ "loss": 3.545,
141
+ "step": 44
142
+ },
143
+ {
144
+ "epoch": 0.07,
145
+ "learning_rate": 0.0007666666666666667,
146
+ "loss": 3.4175,
147
+ "step": 46
148
+ },
149
+ {
150
+ "epoch": 0.07,
151
+ "learning_rate": 0.0008,
152
+ "loss": 3.3677,
153
+ "step": 48
154
+ },
155
+ {
156
+ "epoch": 0.07,
157
+ "learning_rate": 0.0008333333333333334,
158
+ "loss": 3.4794,
159
+ "step": 50
160
+ },
161
+ {
162
+ "epoch": 0.08,
163
+ "learning_rate": 0.0008666666666666667,
164
+ "loss": 3.4051,
165
+ "step": 52
166
+ },
167
+ {
168
+ "epoch": 0.08,
169
+ "learning_rate": 0.0009000000000000001,
170
+ "loss": 3.4254,
171
+ "step": 54
172
+ },
173
+ {
174
+ "epoch": 0.08,
175
+ "learning_rate": 0.0009333333333333333,
176
+ "loss": 3.4557,
177
+ "step": 56
178
+ },
179
+ {
180
+ "epoch": 0.09,
181
+ "learning_rate": 0.0009666666666666667,
182
+ "loss": 3.3973,
183
+ "step": 58
184
+ },
185
+ {
186
+ "epoch": 0.09,
187
+ "learning_rate": 0.001,
188
+ "loss": 3.472,
189
+ "step": 60
190
+ },
191
+ {
192
+ "epoch": 0.09,
193
+ "learning_rate": 0.0009999973722029573,
194
+ "loss": 3.3737,
195
+ "step": 62
196
+ },
197
+ {
198
+ "epoch": 0.1,
199
+ "learning_rate": 0.0009999894888394504,
200
+ "loss": 3.4348,
201
+ "step": 64
202
+ },
203
+ {
204
+ "epoch": 0.1,
205
+ "learning_rate": 0.0009999763499923431,
206
+ "loss": 3.3787,
207
+ "step": 66
208
+ },
209
+ {
210
+ "epoch": 0.1,
211
+ "learning_rate": 0.0009999579557997402,
212
+ "loss": 3.416,
213
+ "step": 68
214
+ },
215
+ {
216
+ "epoch": 0.1,
217
+ "learning_rate": 0.0009999343064549862,
218
+ "loss": 3.5387,
219
+ "step": 70
220
+ },
221
+ {
222
+ "epoch": 0.11,
223
+ "learning_rate": 0.0009999054022066642,
224
+ "loss": 3.4466,
225
+ "step": 72
226
+ },
227
+ {
228
+ "epoch": 0.11,
229
+ "learning_rate": 0.000999871243358592,
230
+ "loss": 3.4026,
231
+ "step": 74
232
+ },
233
+ {
234
+ "epoch": 0.11,
235
+ "learning_rate": 0.0009998318302698198,
236
+ "loss": 3.3983,
237
+ "step": 76
238
+ },
239
+ {
240
+ "epoch": 0.12,
241
+ "learning_rate": 0.0009997871633546256,
242
+ "loss": 3.3695,
243
+ "step": 78
244
+ },
245
+ {
246
+ "epoch": 0.12,
247
+ "learning_rate": 0.0009997372430825123,
248
+ "loss": 3.3765,
249
+ "step": 80
250
+ },
251
+ {
252
+ "epoch": 0.12,
253
+ "learning_rate": 0.000999682069978201,
254
+ "loss": 3.4274,
255
+ "step": 82
256
+ },
257
+ {
258
+ "epoch": 0.13,
259
+ "learning_rate": 0.0009996216446216267,
260
+ "loss": 3.4215,
261
+ "step": 84
262
+ },
263
+ {
264
+ "epoch": 0.13,
265
+ "learning_rate": 0.0009995559676479315,
266
+ "loss": 3.2815,
267
+ "step": 86
268
+ },
269
+ {
270
+ "epoch": 0.13,
271
+ "learning_rate": 0.0009994850397474586,
272
+ "loss": 3.3683,
273
+ "step": 88
274
+ },
275
+ {
276
+ "epoch": 0.13,
277
+ "learning_rate": 0.0009994088616657444,
278
+ "loss": 3.3991,
279
+ "step": 90
280
+ },
281
+ {
282
+ "epoch": 0.14,
283
+ "learning_rate": 0.0009993274342035112,
284
+ "loss": 3.3225,
285
+ "step": 92
286
+ },
287
+ {
288
+ "epoch": 0.14,
289
+ "learning_rate": 0.000999240758216658,
290
+ "loss": 3.3754,
291
+ "step": 94
292
+ },
293
+ {
294
+ "epoch": 0.14,
295
+ "learning_rate": 0.000999148834616253,
296
+ "loss": 3.3638,
297
+ "step": 96
298
+ },
299
+ {
300
+ "epoch": 0.15,
301
+ "learning_rate": 0.0009990516643685222,
302
+ "loss": 3.33,
303
+ "step": 98
304
+ },
305
+ {
306
+ "epoch": 0.15,
307
+ "learning_rate": 0.00099894924849484,
308
+ "loss": 3.351,
309
+ "step": 100
310
+ },
311
+ {
312
+ "epoch": 0.15,
313
+ "learning_rate": 0.0009988415880717195,
314
+ "loss": 3.3876,
315
+ "step": 102
316
+ },
317
+ {
318
+ "epoch": 0.16,
319
+ "learning_rate": 0.0009987286842307991,
320
+ "loss": 3.4271,
321
+ "step": 104
322
+ },
323
+ {
324
+ "epoch": 0.16,
325
+ "learning_rate": 0.0009986105381588329,
326
+ "loss": 3.4191,
327
+ "step": 106
328
+ },
329
+ {
330
+ "epoch": 0.16,
331
+ "learning_rate": 0.000998487151097676,
332
+ "loss": 3.3839,
333
+ "step": 108
334
+ },
335
+ {
336
+ "epoch": 0.16,
337
+ "learning_rate": 0.0009983585243442733,
338
+ "loss": 3.3549,
339
+ "step": 110
340
+ },
341
+ {
342
+ "epoch": 0.17,
343
+ "learning_rate": 0.0009982246592506446,
344
+ "loss": 3.2474,
345
+ "step": 112
346
+ },
347
+ {
348
+ "epoch": 0.17,
349
+ "learning_rate": 0.0009980855572238713,
350
+ "loss": 3.2932,
351
+ "step": 114
352
+ },
353
+ {
354
+ "epoch": 0.17,
355
+ "learning_rate": 0.000997941219726081,
356
+ "loss": 3.3606,
357
+ "step": 116
358
+ },
359
+ {
360
+ "epoch": 0.18,
361
+ "learning_rate": 0.0009977916482744322,
362
+ "loss": 3.3128,
363
+ "step": 118
364
+ },
365
+ {
366
+ "epoch": 0.18,
367
+ "learning_rate": 0.0009976368444410985,
368
+ "loss": 3.3978,
369
+ "step": 120
370
+ },
371
+ {
372
+ "epoch": 0.18,
373
+ "learning_rate": 0.0009974768098532521,
374
+ "loss": 3.3274,
375
+ "step": 122
376
+ },
377
+ {
378
+ "epoch": 0.19,
379
+ "learning_rate": 0.0009973115461930468,
380
+ "loss": 3.3005,
381
+ "step": 124
382
+ },
383
+ {
384
+ "epoch": 0.19,
385
+ "learning_rate": 0.0009971410551976002,
386
+ "loss": 3.3892,
387
+ "step": 126
388
+ },
389
+ {
390
+ "epoch": 0.19,
391
+ "learning_rate": 0.0009969653386589748,
392
+ "loss": 3.3928,
393
+ "step": 128
394
+ },
395
+ {
396
+ "epoch": 0.19,
397
+ "learning_rate": 0.0009967843984241605,
398
+ "loss": 3.3035,
399
+ "step": 130
400
+ },
401
+ {
402
+ "epoch": 0.2,
403
+ "learning_rate": 0.000996598236395054,
404
+ "loss": 3.3578,
405
+ "step": 132
406
+ },
407
+ {
408
+ "epoch": 0.2,
409
+ "learning_rate": 0.0009964068545284396,
410
+ "loss": 3.303,
411
+ "step": 134
412
+ },
413
+ {
414
+ "epoch": 0.2,
415
+ "learning_rate": 0.0009962102548359678,
416
+ "loss": 3.2444,
417
+ "step": 136
418
+ },
419
+ {
420
+ "epoch": 0.21,
421
+ "learning_rate": 0.0009960084393841355,
422
+ "loss": 3.2104,
423
+ "step": 138
424
+ },
425
+ {
426
+ "epoch": 0.21,
427
+ "learning_rate": 0.0009958014102942623,
428
+ "loss": 3.3374,
429
+ "step": 140
430
+ },
431
+ {
432
+ "epoch": 0.21,
433
+ "learning_rate": 0.0009955891697424704,
434
+ "loss": 3.2726,
435
+ "step": 142
436
+ },
437
+ {
438
+ "epoch": 0.22,
439
+ "learning_rate": 0.0009953717199596597,
440
+ "loss": 3.2767,
441
+ "step": 144
442
+ },
443
+ {
444
+ "epoch": 0.22,
445
+ "learning_rate": 0.0009951490632314863,
446
+ "loss": 3.3886,
447
+ "step": 146
448
+ },
449
+ {
450
+ "epoch": 0.22,
451
+ "learning_rate": 0.0009949212018983365,
452
+ "loss": 3.2533,
453
+ "step": 148
454
+ },
455
+ {
456
+ "epoch": 0.22,
457
+ "learning_rate": 0.0009946881383553039,
458
+ "loss": 3.2697,
459
+ "step": 150
460
+ },
461
+ {
462
+ "epoch": 0.23,
463
+ "learning_rate": 0.0009944498750521634,
464
+ "loss": 3.2039,
465
+ "step": 152
466
+ },
467
+ {
468
+ "epoch": 0.23,
469
+ "learning_rate": 0.0009942064144933451,
470
+ "loss": 3.3465,
471
+ "step": 154
472
+ },
473
+ {
474
+ "epoch": 0.23,
475
+ "learning_rate": 0.0009939577592379088,
476
+ "loss": 3.3282,
477
+ "step": 156
478
+ },
479
+ {
480
+ "epoch": 0.24,
481
+ "learning_rate": 0.000993703911899517,
482
+ "loss": 3.2573,
483
+ "step": 158
484
+ },
485
+ {
486
+ "epoch": 0.24,
487
+ "learning_rate": 0.0009934448751464063,
488
+ "loss": 3.275,
489
+ "step": 160
490
+ },
491
+ {
492
+ "epoch": 0.24,
493
+ "learning_rate": 0.0009931806517013613,
494
+ "loss": 3.1894,
495
+ "step": 162
496
+ },
497
+ {
498
+ "epoch": 0.25,
499
+ "learning_rate": 0.0009929112443416838,
500
+ "loss": 3.2473,
501
+ "step": 164
502
+ },
503
+ {
504
+ "epoch": 0.25,
505
+ "learning_rate": 0.0009926366558991658,
506
+ "loss": 3.2522,
507
+ "step": 166
508
+ },
509
+ {
510
+ "epoch": 0.25,
511
+ "learning_rate": 0.0009923568892600577,
512
+ "loss": 3.2152,
513
+ "step": 168
514
+ },
515
+ {
516
+ "epoch": 0.25,
517
+ "learning_rate": 0.0009920719473650397,
518
+ "loss": 3.2415,
519
+ "step": 170
520
+ },
521
+ {
522
+ "epoch": 0.26,
523
+ "learning_rate": 0.0009917818332091893,
524
+ "loss": 3.2481,
525
+ "step": 172
526
+ },
527
+ {
528
+ "epoch": 0.26,
529
+ "learning_rate": 0.000991486549841951,
530
+ "loss": 3.3666,
531
+ "step": 174
532
+ },
533
+ {
534
+ "epoch": 0.26,
535
+ "learning_rate": 0.000991186100367104,
536
+ "loss": 3.1949,
537
+ "step": 176
538
+ },
539
+ {
540
+ "epoch": 0.27,
541
+ "learning_rate": 0.000990880487942729,
542
+ "loss": 3.2463,
543
+ "step": 178
544
+ },
545
+ {
546
+ "epoch": 0.27,
547
+ "learning_rate": 0.000990569715781176,
548
+ "loss": 3.1718,
549
+ "step": 180
550
+ },
551
+ {
552
+ "epoch": 0.27,
553
+ "learning_rate": 0.0009902537871490295,
554
+ "loss": 3.3089,
555
+ "step": 182
556
+ },
557
+ {
558
+ "epoch": 0.28,
559
+ "learning_rate": 0.000989932705367075,
560
+ "loss": 3.1795,
561
+ "step": 184
562
+ },
563
+ {
564
+ "epoch": 0.28,
565
+ "learning_rate": 0.0009896064738102635,
566
+ "loss": 3.2265,
567
+ "step": 186
568
+ },
569
+ {
570
+ "epoch": 0.28,
571
+ "learning_rate": 0.0009892750959076759,
572
+ "loss": 3.2867,
573
+ "step": 188
574
+ },
575
+ {
576
+ "epoch": 0.28,
577
+ "learning_rate": 0.0009889385751424883,
578
+ "loss": 3.2098,
579
+ "step": 190
580
+ },
581
+ {
582
+ "epoch": 0.29,
583
+ "learning_rate": 0.000988596915051933,
584
+ "loss": 3.2961,
585
+ "step": 192
586
+ },
587
+ {
588
+ "epoch": 0.29,
589
+ "learning_rate": 0.000988250119227264,
590
+ "loss": 3.2511,
591
+ "step": 194
592
+ },
593
+ {
594
+ "epoch": 0.29,
595
+ "learning_rate": 0.0009878981913137178,
596
+ "loss": 3.258,
597
+ "step": 196
598
+ },
599
+ {
600
+ "epoch": 0.3,
601
+ "learning_rate": 0.0009875411350104744,
602
+ "loss": 3.2204,
603
+ "step": 198
604
+ },
605
+ {
606
+ "epoch": 0.3,
607
+ "learning_rate": 0.0009871789540706198,
608
+ "loss": 3.2769,
609
+ "step": 200
610
+ },
611
+ {
612
+ "epoch": 0.3,
613
+ "learning_rate": 0.0009868116523011063,
614
+ "loss": 3.2226,
615
+ "step": 202
616
+ },
617
+ {
618
+ "epoch": 0.31,
619
+ "learning_rate": 0.0009864392335627117,
620
+ "loss": 3.2561,
621
+ "step": 204
622
+ },
623
+ {
624
+ "epoch": 0.31,
625
+ "learning_rate": 0.0009860617017699994,
626
+ "loss": 3.2212,
627
+ "step": 206
628
+ },
629
+ {
630
+ "epoch": 0.31,
631
+ "learning_rate": 0.0009856790608912774,
632
+ "loss": 3.1705,
633
+ "step": 208
634
+ },
635
+ {
636
+ "epoch": 0.31,
637
+ "learning_rate": 0.0009852913149485556,
638
+ "loss": 3.1683,
639
+ "step": 210
640
+ },
641
+ {
642
+ "epoch": 0.32,
643
+ "learning_rate": 0.0009848984680175049,
644
+ "loss": 3.2566,
645
+ "step": 212
646
+ },
647
+ {
648
+ "epoch": 0.32,
649
+ "learning_rate": 0.000984500524227413,
650
+ "loss": 3.2248,
651
+ "step": 214
652
+ },
653
+ {
654
+ "epoch": 0.32,
655
+ "learning_rate": 0.0009840974877611422,
656
+ "loss": 3.174,
657
+ "step": 216
658
+ },
659
+ {
660
+ "epoch": 0.33,
661
+ "learning_rate": 0.0009836893628550846,
662
+ "loss": 3.2676,
663
+ "step": 218
664
+ },
665
+ {
666
+ "epoch": 0.33,
667
+ "learning_rate": 0.0009832761537991177,
668
+ "loss": 3.1549,
669
+ "step": 220
670
+ },
671
+ {
672
+ "epoch": 0.33,
673
+ "learning_rate": 0.00098285786493656,
674
+ "loss": 3.1729,
675
+ "step": 222
676
+ },
677
+ {
678
+ "epoch": 0.34,
679
+ "learning_rate": 0.0009824345006641242,
680
+ "loss": 3.2988,
681
+ "step": 224
682
+ },
683
+ {
684
+ "epoch": 0.34,
685
+ "learning_rate": 0.0009820060654318718,
686
+ "loss": 3.1277,
687
+ "step": 226
688
+ },
689
+ {
690
+ "epoch": 0.34,
691
+ "learning_rate": 0.000981572563743166,
692
+ "loss": 3.2599,
693
+ "step": 228
694
+ },
695
+ {
696
+ "epoch": 0.34,
697
+ "learning_rate": 0.0009811340001546253,
698
+ "loss": 3.3003,
699
+ "step": 230
700
+ },
701
+ {
702
+ "epoch": 0.35,
703
+ "learning_rate": 0.0009806903792760732,
704
+ "loss": 3.2459,
705
+ "step": 232
706
+ },
707
+ {
708
+ "epoch": 0.35,
709
+ "learning_rate": 0.000980241705770493,
710
+ "loss": 3.3097,
711
+ "step": 234
712
+ },
713
+ {
714
+ "epoch": 0.35,
715
+ "learning_rate": 0.000979787984353976,
716
+ "loss": 3.2687,
717
+ "step": 236
718
+ },
719
+ {
720
+ "epoch": 0.36,
721
+ "learning_rate": 0.0009793292197956731,
722
+ "loss": 3.2128,
723
+ "step": 238
724
+ },
725
+ {
726
+ "epoch": 0.36,
727
+ "learning_rate": 0.0009788654169177453,
728
+ "loss": 3.1804,
729
+ "step": 240
730
+ },
731
+ {
732
+ "epoch": 0.36,
733
+ "learning_rate": 0.000978396580595312,
734
+ "loss": 3.2262,
735
+ "step": 242
736
+ },
737
+ {
738
+ "epoch": 0.37,
739
+ "learning_rate": 0.0009779227157563997,
740
+ "loss": 3.2082,
741
+ "step": 244
742
+ },
743
+ {
744
+ "epoch": 0.37,
745
+ "learning_rate": 0.000977443827381891,
746
+ "loss": 3.2214,
747
+ "step": 246
748
+ },
749
+ {
750
+ "epoch": 0.37,
751
+ "learning_rate": 0.0009769599205054719,
752
+ "loss": 3.2461,
753
+ "step": 248
754
+ },
755
+ {
756
+ "epoch": 0.37,
757
+ "learning_rate": 0.0009764710002135784,
758
+ "loss": 3.1403,
759
+ "step": 250
760
+ },
761
+ {
762
+ "epoch": 0.38,
763
+ "learning_rate": 0.0009759770716453436,
764
+ "loss": 3.1185,
765
+ "step": 252
766
+ },
767
+ {
768
+ "epoch": 0.38,
769
+ "learning_rate": 0.0009754781399925438,
770
+ "loss": 3.0756,
771
+ "step": 254
772
+ },
773
+ {
774
+ "epoch": 0.38,
775
+ "learning_rate": 0.0009749742104995436,
776
+ "loss": 3.1344,
777
+ "step": 256
778
+ },
779
+ {
780
+ "epoch": 0.39,
781
+ "learning_rate": 0.0009744652884632406,
782
+ "loss": 3.2695,
783
+ "step": 258
784
+ },
785
+ {
786
+ "epoch": 0.39,
787
+ "learning_rate": 0.00097395137923301,
788
+ "loss": 3.1808,
789
+ "step": 260
790
+ },
791
+ {
792
+ "epoch": 0.39,
793
+ "learning_rate": 0.0009734324882106485,
794
+ "loss": 3.2686,
795
+ "step": 262
796
+ },
797
+ {
798
+ "epoch": 0.4,
799
+ "learning_rate": 0.0009729086208503173,
800
+ "loss": 3.1284,
801
+ "step": 264
802
+ },
803
+ {
804
+ "epoch": 0.4,
805
+ "learning_rate": 0.0009723797826584848,
806
+ "loss": 3.1732,
807
+ "step": 266
808
+ },
809
+ {
810
+ "epoch": 0.4,
811
+ "learning_rate": 0.0009718459791938687,
812
+ "loss": 3.2298,
813
+ "step": 268
814
+ },
815
+ {
816
+ "epoch": 0.4,
817
+ "learning_rate": 0.0009713072160673777,
818
+ "loss": 3.209,
819
+ "step": 270
820
+ },
821
+ {
822
+ "epoch": 0.41,
823
+ "learning_rate": 0.0009707634989420525,
824
+ "loss": 3.1959,
825
+ "step": 272
826
+ },
827
+ {
828
+ "epoch": 0.41,
829
+ "learning_rate": 0.0009702148335330059,
830
+ "loss": 3.2005,
831
+ "step": 274
832
+ },
833
+ {
834
+ "epoch": 0.41,
835
+ "learning_rate": 0.0009696612256073633,
836
+ "loss": 3.0852,
837
+ "step": 276
838
+ },
839
+ {
840
+ "epoch": 0.42,
841
+ "learning_rate": 0.0009691026809842021,
842
+ "loss": 3.2487,
843
+ "step": 278
844
+ },
845
+ {
846
+ "epoch": 0.42,
847
+ "learning_rate": 0.0009685392055344894,
848
+ "loss": 3.0853,
849
+ "step": 280
850
+ },
851
+ {
852
+ "epoch": 0.42,
853
+ "learning_rate": 0.0009679708051810221,
854
+ "loss": 3.146,
855
+ "step": 282
856
+ },
857
+ {
858
+ "epoch": 0.43,
859
+ "learning_rate": 0.000967397485898363,
860
+ "loss": 3.124,
861
+ "step": 284
862
+ },
863
+ {
864
+ "epoch": 0.43,
865
+ "learning_rate": 0.0009668192537127792,
866
+ "loss": 3.1761,
867
+ "step": 286
868
+ },
869
+ {
870
+ "epoch": 0.43,
871
+ "learning_rate": 0.0009662361147021779,
872
+ "loss": 3.1475,
873
+ "step": 288
874
+ },
875
+ {
876
+ "epoch": 0.43,
877
+ "learning_rate": 0.0009656480749960431,
878
+ "loss": 3.1899,
879
+ "step": 290
880
+ },
881
+ {
882
+ "epoch": 0.44,
883
+ "learning_rate": 0.0009650551407753705,
884
+ "loss": 3.2074,
885
+ "step": 292
886
+ },
887
+ {
888
+ "epoch": 0.44,
889
+ "learning_rate": 0.0009644573182726034,
890
+ "loss": 3.1865,
891
+ "step": 294
892
+ },
893
+ {
894
+ "epoch": 0.44,
895
+ "learning_rate": 0.0009638546137715668,
896
+ "loss": 3.1451,
897
+ "step": 296
898
+ },
899
+ {
900
+ "epoch": 0.45,
901
+ "learning_rate": 0.0009632470336074008,
902
+ "loss": 3.1608,
903
+ "step": 298
904
+ },
905
+ {
906
+ "epoch": 0.45,
907
+ "learning_rate": 0.0009626345841664952,
908
+ "loss": 3.1494,
909
+ "step": 300
910
+ },
911
+ {
912
+ "epoch": 0.45,
913
+ "learning_rate": 0.0009620172718864212,
914
+ "loss": 3.2578,
915
+ "step": 302
916
+ },
917
+ {
918
+ "epoch": 0.46,
919
+ "learning_rate": 0.0009613951032558641,
920
+ "loss": 3.1387,
921
+ "step": 304
922
+ },
923
+ {
924
+ "epoch": 0.46,
925
+ "learning_rate": 0.0009607680848145556,
926
+ "loss": 3.0812,
927
+ "step": 306
928
+ },
929
+ {
930
+ "epoch": 0.46,
931
+ "learning_rate": 0.0009601362231532047,
932
+ "loss": 3.1705,
933
+ "step": 308
934
+ },
935
+ {
936
+ "epoch": 0.46,
937
+ "learning_rate": 0.0009594995249134281,
938
+ "loss": 3.1888,
939
+ "step": 310
940
+ },
941
+ {
942
+ "epoch": 0.47,
943
+ "learning_rate": 0.0009588579967876806,
944
+ "loss": 3.1549,
945
+ "step": 312
946
+ },
947
+ {
948
+ "epoch": 0.47,
949
+ "learning_rate": 0.0009582116455191854,
950
+ "loss": 3.1681,
951
+ "step": 314
952
+ },
953
+ {
954
+ "epoch": 0.47,
955
+ "learning_rate": 0.000957560477901862,
956
+ "loss": 3.1301,
957
+ "step": 316
958
+ },
959
+ {
960
+ "epoch": 0.48,
961
+ "learning_rate": 0.0009569045007802558,
962
+ "loss": 3.147,
963
+ "step": 318
964
+ },
965
+ {
966
+ "epoch": 0.48,
967
+ "learning_rate": 0.000956243721049466,
968
+ "loss": 3.1887,
969
+ "step": 320
970
+ },
971
+ {
972
+ "epoch": 0.48,
973
+ "learning_rate": 0.0009555781456550725,
974
+ "loss": 3.1544,
975
+ "step": 322
976
+ },
977
+ {
978
+ "epoch": 0.49,
979
+ "learning_rate": 0.0009549077815930636,
980
+ "loss": 3.1345,
981
+ "step": 324
982
+ },
983
+ {
984
+ "epoch": 0.49,
985
+ "learning_rate": 0.0009542326359097619,
986
+ "loss": 3.17,
987
+ "step": 326
988
+ },
989
+ {
990
+ "epoch": 0.49,
991
+ "learning_rate": 0.000953552715701751,
992
+ "loss": 3.1099,
993
+ "step": 328
994
+ },
995
+ {
996
+ "epoch": 0.49,
997
+ "learning_rate": 0.0009528680281157999,
998
+ "loss": 3.1382,
999
+ "step": 330
1000
+ },
1001
+ {
1002
+ "epoch": 0.5,
1003
+ "learning_rate": 0.0009521785803487888,
1004
+ "loss": 3.2168,
1005
+ "step": 332
1006
+ },
1007
+ {
1008
+ "epoch": 0.5,
1009
+ "learning_rate": 0.0009514843796476329,
1010
+ "loss": 3.2603,
1011
+ "step": 334
1012
+ },
1013
+ {
1014
+ "epoch": 0.5,
1015
+ "learning_rate": 0.0009507854333092063,
1016
+ "loss": 3.1602,
1017
+ "step": 336
1018
+ },
1019
+ {
1020
+ "epoch": 0.51,
1021
+ "learning_rate": 0.0009500817486802657,
1022
+ "loss": 3.1077,
1023
+ "step": 338
1024
+ },
1025
+ {
1026
+ "epoch": 0.51,
1027
+ "learning_rate": 0.0009493733331573724,
1028
+ "loss": 3.1763,
1029
+ "step": 340
1030
+ },
1031
+ {
1032
+ "epoch": 0.51,
1033
+ "learning_rate": 0.0009486601941868153,
1034
+ "loss": 3.1265,
1035
+ "step": 342
1036
+ },
1037
+ {
1038
+ "epoch": 0.52,
1039
+ "learning_rate": 0.0009479423392645326,
1040
+ "loss": 3.1201,
1041
+ "step": 344
1042
+ },
1043
+ {
1044
+ "epoch": 0.52,
1045
+ "learning_rate": 0.0009472197759360321,
1046
+ "loss": 3.1172,
1047
+ "step": 346
1048
+ },
1049
+ {
1050
+ "epoch": 0.52,
1051
+ "learning_rate": 0.0009464925117963133,
1052
+ "loss": 3.1214,
1053
+ "step": 348
1054
+ },
1055
+ {
1056
+ "epoch": 0.52,
1057
+ "learning_rate": 0.0009457605544897859,
1058
+ "loss": 3.1854,
1059
+ "step": 350
1060
+ },
1061
+ {
1062
+ "epoch": 0.53,
1063
+ "learning_rate": 0.0009450239117101913,
1064
+ "loss": 3.1596,
1065
+ "step": 352
1066
+ },
1067
+ {
1068
+ "epoch": 0.53,
1069
+ "learning_rate": 0.0009442825912005201,
1070
+ "loss": 3.1089,
1071
+ "step": 354
1072
+ },
1073
+ {
1074
+ "epoch": 0.53,
1075
+ "learning_rate": 0.000943536600752932,
1076
+ "loss": 3.187,
1077
+ "step": 356
1078
+ },
1079
+ {
1080
+ "epoch": 0.54,
1081
+ "learning_rate": 0.0009427859482086727,
1082
+ "loss": 3.2244,
1083
+ "step": 358
1084
+ },
1085
+ {
1086
+ "epoch": 0.54,
1087
+ "learning_rate": 0.0009420306414579925,
1088
+ "loss": 3.0708,
1089
+ "step": 360
1090
+ },
1091
+ {
1092
+ "epoch": 0.54,
1093
+ "learning_rate": 0.0009412706884400626,
1094
+ "loss": 3.1223,
1095
+ "step": 362
1096
+ },
1097
+ {
1098
+ "epoch": 0.55,
1099
+ "learning_rate": 0.0009405060971428923,
1100
+ "loss": 3.096,
1101
+ "step": 364
1102
+ },
1103
+ {
1104
+ "epoch": 0.55,
1105
+ "learning_rate": 0.0009397368756032445,
1106
+ "loss": 3.1081,
1107
+ "step": 366
1108
+ },
1109
+ {
1110
+ "epoch": 0.55,
1111
+ "learning_rate": 0.0009389630319065517,
1112
+ "loss": 3.1878,
1113
+ "step": 368
1114
+ },
1115
+ {
1116
+ "epoch": 0.55,
1117
+ "learning_rate": 0.0009381845741868307,
1118
+ "loss": 3.1201,
1119
+ "step": 370
1120
+ },
1121
+ {
1122
+ "epoch": 0.56,
1123
+ "learning_rate": 0.0009374015106265967,
1124
+ "loss": 3.1601,
1125
+ "step": 372
1126
+ },
1127
+ {
1128
+ "epoch": 0.56,
1129
+ "learning_rate": 0.0009366138494567784,
1130
+ "loss": 3.1596,
1131
+ "step": 374
1132
+ },
1133
+ {
1134
+ "epoch": 0.56,
1135
+ "learning_rate": 0.0009358215989566305,
1136
+ "loss": 3.0655,
1137
+ "step": 376
1138
+ },
1139
+ {
1140
+ "epoch": 0.57,
1141
+ "learning_rate": 0.0009350247674536471,
1142
+ "loss": 3.1692,
1143
+ "step": 378
1144
+ },
1145
+ {
1146
+ "epoch": 0.57,
1147
+ "learning_rate": 0.000934223363323474,
1148
+ "loss": 3.1111,
1149
+ "step": 380
1150
+ },
1151
+ {
1152
+ "epoch": 0.57,
1153
+ "learning_rate": 0.000933417394989821,
1154
+ "loss": 3.1562,
1155
+ "step": 382
1156
+ },
1157
+ {
1158
+ "epoch": 0.58,
1159
+ "learning_rate": 0.0009326068709243727,
1160
+ "loss": 3.0753,
1161
+ "step": 384
1162
+ },
1163
+ {
1164
+ "epoch": 0.58,
1165
+ "learning_rate": 0.0009317917996467003,
1166
+ "loss": 3.1938,
1167
+ "step": 386
1168
+ },
1169
+ {
1170
+ "epoch": 0.58,
1171
+ "learning_rate": 0.0009309721897241711,
1172
+ "loss": 3.2059,
1173
+ "step": 388
1174
+ },
1175
+ {
1176
+ "epoch": 0.58,
1177
+ "learning_rate": 0.0009301480497718593,
1178
+ "loss": 3.1699,
1179
+ "step": 390
1180
+ },
1181
+ {
1182
+ "epoch": 0.59,
1183
+ "learning_rate": 0.0009293193884524553,
1184
+ "loss": 3.1523,
1185
+ "step": 392
1186
+ },
1187
+ {
1188
+ "epoch": 0.59,
1189
+ "learning_rate": 0.0009284862144761737,
1190
+ "loss": 3.2244,
1191
+ "step": 394
1192
+ },
1193
+ {
1194
+ "epoch": 0.59,
1195
+ "learning_rate": 0.0009276485366006633,
1196
+ "loss": 3.15,
1197
+ "step": 396
1198
+ },
1199
+ {
1200
+ "epoch": 0.6,
1201
+ "learning_rate": 0.0009268063636309138,
1202
+ "loss": 3.0655,
1203
+ "step": 398
1204
+ },
1205
+ {
1206
+ "epoch": 0.6,
1207
+ "learning_rate": 0.0009259597044191636,
1208
+ "loss": 3.1257,
1209
+ "step": 400
1210
+ },
1211
+ {
1212
+ "epoch": 0.6,
1213
+ "learning_rate": 0.0009251085678648072,
1214
+ "loss": 3.1258,
1215
+ "step": 402
1216
+ },
1217
+ {
1218
+ "epoch": 0.61,
1219
+ "learning_rate": 0.0009242529629143008,
1220
+ "loss": 3.2015,
1221
+ "step": 404
1222
+ },
1223
+ {
1224
+ "epoch": 0.61,
1225
+ "learning_rate": 0.0009233928985610693,
1226
+ "loss": 3.2058,
1227
+ "step": 406
1228
+ },
1229
+ {
1230
+ "epoch": 0.61,
1231
+ "learning_rate": 0.000922528383845411,
1232
+ "loss": 3.1102,
1233
+ "step": 408
1234
+ },
1235
+ {
1236
+ "epoch": 0.61,
1237
+ "learning_rate": 0.0009216594278544025,
1238
+ "loss": 3.0948,
1239
+ "step": 410
1240
+ },
1241
+ {
1242
+ "epoch": 0.62,
1243
+ "learning_rate": 0.000920786039721804,
1244
+ "loss": 3.098,
1245
+ "step": 412
1246
+ },
1247
+ {
1248
+ "epoch": 0.62,
1249
+ "learning_rate": 0.000919908228627962,
1250
+ "loss": 3.1547,
1251
+ "step": 414
1252
+ },
1253
+ {
1254
+ "epoch": 0.62,
1255
+ "learning_rate": 0.0009190260037997149,
1256
+ "loss": 3.0747,
1257
+ "step": 416
1258
+ },
1259
+ {
1260
+ "epoch": 0.63,
1261
+ "learning_rate": 0.0009181393745102933,
1262
+ "loss": 3.165,
1263
+ "step": 418
1264
+ },
1265
+ {
1266
+ "epoch": 0.63,
1267
+ "learning_rate": 0.0009172483500792245,
1268
+ "loss": 3.185,
1269
+ "step": 420
1270
+ },
1271
+ {
1272
+ "epoch": 0.63,
1273
+ "learning_rate": 0.0009163529398722341,
1274
+ "loss": 3.1819,
1275
+ "step": 422
1276
+ },
1277
+ {
1278
+ "epoch": 0.64,
1279
+ "learning_rate": 0.0009154531533011474,
1280
+ "loss": 3.0925,
1281
+ "step": 424
1282
+ },
1283
+ {
1284
+ "epoch": 0.64,
1285
+ "learning_rate": 0.0009145489998237901,
1286
+ "loss": 3.1825,
1287
+ "step": 426
1288
+ },
1289
+ {
1290
+ "epoch": 0.64,
1291
+ "learning_rate": 0.0009136404889438899,
1292
+ "loss": 3.0488,
1293
+ "step": 428
1294
+ },
1295
+ {
1296
+ "epoch": 0.64,
1297
+ "learning_rate": 0.0009127276302109751,
1298
+ "loss": 3.2668,
1299
+ "step": 430
1300
+ },
1301
+ {
1302
+ "epoch": 0.65,
1303
+ "learning_rate": 0.0009118104332202759,
1304
+ "loss": 3.1136,
1305
+ "step": 432
1306
+ },
1307
+ {
1308
+ "epoch": 0.65,
1309
+ "learning_rate": 0.0009108889076126225,
1310
+ "loss": 3.0617,
1311
+ "step": 434
1312
+ },
1313
+ {
1314
+ "epoch": 0.65,
1315
+ "learning_rate": 0.0009099630630743441,
1316
+ "loss": 3.024,
1317
+ "step": 436
1318
+ },
1319
+ {
1320
+ "epoch": 0.66,
1321
+ "learning_rate": 0.0009090329093371665,
1322
+ "loss": 3.0965,
1323
+ "step": 438
1324
+ },
1325
+ {
1326
+ "epoch": 0.66,
1327
+ "learning_rate": 0.0009080984561781109,
1328
+ "loss": 3.1314,
1329
+ "step": 440
1330
+ },
1331
+ {
1332
+ "epoch": 0.66,
1333
+ "learning_rate": 0.0009071597134193902,
1334
+ "loss": 3.211,
1335
+ "step": 442
1336
+ },
1337
+ {
1338
+ "epoch": 0.67,
1339
+ "learning_rate": 0.0009062166909283062,
1340
+ "loss": 3.1327,
1341
+ "step": 444
1342
+ },
1343
+ {
1344
+ "epoch": 0.67,
1345
+ "learning_rate": 0.0009052693986171458,
1346
+ "loss": 3.1288,
1347
+ "step": 446
1348
+ },
1349
+ {
1350
+ "epoch": 0.67,
1351
+ "learning_rate": 0.0009043178464430766,
1352
+ "loss": 3.0826,
1353
+ "step": 448
1354
+ },
1355
+ {
1356
+ "epoch": 0.67,
1357
+ "learning_rate": 0.0009033620444080427,
1358
+ "loss": 3.1193,
1359
+ "step": 450
1360
+ },
1361
+ {
1362
+ "epoch": 0.68,
1363
+ "learning_rate": 0.0009024020025586591,
1364
+ "loss": 3.1151,
1365
+ "step": 452
1366
+ },
1367
+ {
1368
+ "epoch": 0.68,
1369
+ "learning_rate": 0.0009014377309861063,
1370
+ "loss": 3.089,
1371
+ "step": 454
1372
+ },
1373
+ {
1374
+ "epoch": 0.68,
1375
+ "learning_rate": 0.0009004692398260244,
1376
+ "loss": 3.0944,
1377
+ "step": 456
1378
+ },
1379
+ {
1380
+ "epoch": 0.69,
1381
+ "learning_rate": 0.000899496539258406,
1382
+ "loss": 3.1818,
1383
+ "step": 458
1384
+ },
1385
+ {
1386
+ "epoch": 0.69,
1387
+ "learning_rate": 0.0008985196395074898,
1388
+ "loss": 3.1479,
1389
+ "step": 460
1390
+ },
1391
+ {
1392
+ "epoch": 0.69,
1393
+ "learning_rate": 0.0008975385508416531,
1394
+ "loss": 3.0842,
1395
+ "step": 462
1396
+ },
1397
+ {
1398
+ "epoch": 0.7,
1399
+ "learning_rate": 0.0008965532835733034,
1400
+ "loss": 3.1288,
1401
+ "step": 464
1402
+ },
1403
+ {
1404
+ "epoch": 0.7,
1405
+ "learning_rate": 0.0008955638480587705,
1406
+ "loss": 3.1085,
1407
+ "step": 466
1408
+ },
1409
+ {
1410
+ "epoch": 0.7,
1411
+ "learning_rate": 0.0008945702546981969,
1412
+ "loss": 3.0975,
1413
+ "step": 468
1414
+ },
1415
+ {
1416
+ "epoch": 0.7,
1417
+ "learning_rate": 0.0008935725139354296,
1418
+ "loss": 3.0794,
1419
+ "step": 470
1420
+ },
1421
+ {
1422
+ "epoch": 0.71,
1423
+ "learning_rate": 0.0008925706362579096,
1424
+ "loss": 3.1187,
1425
+ "step": 472
1426
+ },
1427
+ {
1428
+ "epoch": 0.71,
1429
+ "learning_rate": 0.0008915646321965613,
1430
+ "loss": 3.0495,
1431
+ "step": 474
1432
+ },
1433
+ {
1434
+ "epoch": 0.71,
1435
+ "learning_rate": 0.0008905545123256833,
1436
+ "loss": 3.1473,
1437
+ "step": 476
1438
+ },
1439
+ {
1440
+ "epoch": 0.72,
1441
+ "learning_rate": 0.0008895402872628352,
1442
+ "loss": 3.1513,
1443
+ "step": 478
1444
+ },
1445
+ {
1446
+ "epoch": 0.72,
1447
+ "learning_rate": 0.0008885219676687278,
1448
+ "loss": 3.1076,
1449
+ "step": 480
1450
+ },
1451
+ {
1452
+ "epoch": 0.72,
1453
+ "learning_rate": 0.0008874995642471095,
1454
+ "loss": 3.0756,
1455
+ "step": 482
1456
+ },
1457
+ {
1458
+ "epoch": 0.73,
1459
+ "learning_rate": 0.0008864730877446554,
1460
+ "loss": 3.039,
1461
+ "step": 484
1462
+ },
1463
+ {
1464
+ "epoch": 0.73,
1465
+ "learning_rate": 0.000885442548950853,
1466
+ "loss": 3.1756,
1467
+ "step": 486
1468
+ },
1469
+ {
1470
+ "epoch": 0.73,
1471
+ "learning_rate": 0.0008844079586978897,
1472
+ "loss": 3.0795,
1473
+ "step": 488
1474
+ },
1475
+ {
1476
+ "epoch": 0.73,
1477
+ "learning_rate": 0.0008833693278605381,
1478
+ "loss": 3.0359,
1479
+ "step": 490
1480
+ },
1481
+ {
1482
+ "epoch": 0.74,
1483
+ "learning_rate": 0.0008823266673560426,
1484
+ "loss": 3.1229,
1485
+ "step": 492
1486
+ },
1487
+ {
1488
+ "epoch": 0.74,
1489
+ "learning_rate": 0.0008812799881440039,
1490
+ "loss": 3.0802,
1491
+ "step": 494
1492
+ },
1493
+ {
1494
+ "epoch": 0.74,
1495
+ "learning_rate": 0.0008802293012262638,
1496
+ "loss": 3.1085,
1497
+ "step": 496
1498
+ },
1499
+ {
1500
+ "epoch": 0.75,
1501
+ "learning_rate": 0.0008791746176467907,
1502
+ "loss": 3.1244,
1503
+ "step": 498
1504
+ },
1505
+ {
1506
+ "epoch": 0.75,
1507
+ "learning_rate": 0.0008781159484915619,
1508
+ "loss": 3.0828,
1509
+ "step": 500
1510
+ },
1511
+ {
1512
+ "epoch": 0.75,
1513
+ "learning_rate": 0.0008770533048884482,
1514
+ "loss": 3.1802,
1515
+ "step": 502
1516
+ },
1517
+ {
1518
+ "epoch": 0.76,
1519
+ "learning_rate": 0.0008759866980070963,
1520
+ "loss": 3.0457,
1521
+ "step": 504
1522
+ },
1523
+ {
1524
+ "epoch": 0.76,
1525
+ "learning_rate": 0.0008749161390588121,
1526
+ "loss": 3.0765,
1527
+ "step": 506
1528
+ },
1529
+ {
1530
+ "epoch": 0.76,
1531
+ "learning_rate": 0.0008738416392964419,
1532
+ "loss": 3.1856,
1533
+ "step": 508
1534
+ },
1535
+ {
1536
+ "epoch": 0.76,
1537
+ "learning_rate": 0.000872763210014255,
1538
+ "loss": 3.1713,
1539
+ "step": 510
1540
+ },
1541
+ {
1542
+ "epoch": 0.77,
1543
+ "learning_rate": 0.0008716808625478245,
1544
+ "loss": 3.0972,
1545
+ "step": 512
1546
+ },
1547
+ {
1548
+ "epoch": 0.77,
1549
+ "learning_rate": 0.0008705946082739084,
1550
+ "loss": 3.0709,
1551
+ "step": 514
1552
+ },
1553
+ {
1554
+ "epoch": 0.77,
1555
+ "learning_rate": 0.0008695044586103295,
1556
+ "loss": 3.1017,
1557
+ "step": 516
1558
+ },
1559
+ {
1560
+ "epoch": 0.78,
1561
+ "learning_rate": 0.0008684104250158564,
1562
+ "loss": 3.0701,
1563
+ "step": 518
1564
+ },
1565
+ {
1566
+ "epoch": 0.78,
1567
+ "learning_rate": 0.0008673125189900819,
1568
+ "loss": 3.0383,
1569
+ "step": 520
1570
+ },
1571
+ {
1572
+ "epoch": 0.78,
1573
+ "learning_rate": 0.0008662107520733027,
1574
+ "loss": 3.067,
1575
+ "step": 522
1576
+ },
1577
+ {
1578
+ "epoch": 0.79,
1579
+ "learning_rate": 0.0008651051358463984,
1580
+ "loss": 3.0432,
1581
+ "step": 524
1582
+ },
1583
+ {
1584
+ "epoch": 0.79,
1585
+ "learning_rate": 0.0008639956819307091,
1586
+ "loss": 3.1326,
1587
+ "step": 526
1588
+ },
1589
+ {
1590
+ "epoch": 0.79,
1591
+ "learning_rate": 0.0008628824019879137,
1592
+ "loss": 3.066,
1593
+ "step": 528
1594
+ },
1595
+ {
1596
+ "epoch": 0.79,
1597
+ "learning_rate": 0.0008617653077199072,
1598
+ "loss": 3.1215,
1599
+ "step": 530
1600
+ },
1601
+ {
1602
+ "epoch": 0.8,
1603
+ "learning_rate": 0.0008606444108686775,
1604
+ "loss": 3.0711,
1605
+ "step": 532
1606
+ },
1607
+ {
1608
+ "epoch": 0.8,
1609
+ "learning_rate": 0.0008595197232161825,
1610
+ "loss": 3.1095,
1611
+ "step": 534
1612
+ },
1613
+ {
1614
+ "epoch": 0.8,
1615
+ "learning_rate": 0.0008583912565842257,
1616
+ "loss": 3.0625,
1617
+ "step": 536
1618
+ },
1619
+ {
1620
+ "epoch": 0.81,
1621
+ "learning_rate": 0.000857259022834332,
1622
+ "loss": 3.0858,
1623
+ "step": 538
1624
+ },
1625
+ {
1626
+ "epoch": 0.81,
1627
+ "learning_rate": 0.000856123033867624,
1628
+ "loss": 3.0559,
1629
+ "step": 540
1630
+ },
1631
+ {
1632
+ "epoch": 0.81,
1633
+ "learning_rate": 0.0008549833016246949,
1634
+ "loss": 3.0482,
1635
+ "step": 542
1636
+ },
1637
+ {
1638
+ "epoch": 0.82,
1639
+ "learning_rate": 0.0008538398380854848,
1640
+ "loss": 3.0904,
1641
+ "step": 544
1642
+ },
1643
+ {
1644
+ "epoch": 0.82,
1645
+ "learning_rate": 0.0008526926552691544,
1646
+ "loss": 3.1121,
1647
+ "step": 546
1648
+ },
1649
+ {
1650
+ "epoch": 0.82,
1651
+ "learning_rate": 0.0008515417652339579,
1652
+ "loss": 3.0887,
1653
+ "step": 548
1654
+ },
1655
+ {
1656
+ "epoch": 0.82,
1657
+ "learning_rate": 0.0008503871800771174,
1658
+ "loss": 3.0739,
1659
+ "step": 550
1660
+ },
1661
+ {
1662
+ "epoch": 0.83,
1663
+ "learning_rate": 0.0008492289119346944,
1664
+ "loss": 3.084,
1665
+ "step": 552
1666
+ },
1667
+ {
1668
+ "epoch": 0.83,
1669
+ "learning_rate": 0.0008480669729814634,
1670
+ "loss": 3.0616,
1671
+ "step": 554
1672
+ },
1673
+ {
1674
+ "epoch": 0.83,
1675
+ "learning_rate": 0.0008469013754307833,
1676
+ "loss": 3.1446,
1677
+ "step": 556
1678
+ },
1679
+ {
1680
+ "epoch": 0.84,
1681
+ "learning_rate": 0.0008457321315344694,
1682
+ "loss": 3.0596,
1683
+ "step": 558
1684
+ },
1685
+ {
1686
+ "epoch": 0.84,
1687
+ "learning_rate": 0.0008445592535826642,
1688
+ "loss": 3.0451,
1689
+ "step": 560
1690
+ },
1691
+ {
1692
+ "epoch": 0.84,
1693
+ "learning_rate": 0.0008433827539037088,
1694
+ "loss": 3.1177,
1695
+ "step": 562
1696
+ },
1697
+ {
1698
+ "epoch": 0.85,
1699
+ "learning_rate": 0.0008422026448640124,
1700
+ "loss": 3.1581,
1701
+ "step": 564
1702
+ },
1703
+ {
1704
+ "epoch": 0.85,
1705
+ "learning_rate": 0.0008410189388679233,
1706
+ "loss": 3.1148,
1707
+ "step": 566
1708
+ },
1709
+ {
1710
+ "epoch": 0.85,
1711
+ "learning_rate": 0.0008398316483575981,
1712
+ "loss": 3.0342,
1713
+ "step": 568
1714
+ },
1715
+ {
1716
+ "epoch": 0.85,
1717
+ "learning_rate": 0.0008386407858128706,
1718
+ "loss": 3.0849,
1719
+ "step": 570
1720
+ },
1721
+ {
1722
+ "epoch": 0.86,
1723
+ "learning_rate": 0.0008374463637511212,
1724
+ "loss": 3.0088,
1725
+ "step": 572
1726
+ },
1727
+ {
1728
+ "epoch": 0.86,
1729
+ "learning_rate": 0.0008362483947271447,
1730
+ "loss": 3.0459,
1731
+ "step": 574
1732
+ },
1733
+ {
1734
+ "epoch": 0.86,
1735
+ "learning_rate": 0.0008350468913330191,
1736
+ "loss": 3.093,
1737
+ "step": 576
1738
+ },
1739
+ {
1740
+ "epoch": 0.87,
1741
+ "learning_rate": 0.0008338418661979727,
1742
+ "loss": 3.003,
1743
+ "step": 578
1744
+ },
1745
+ {
1746
+ "epoch": 0.87,
1747
+ "learning_rate": 0.0008326333319882516,
1748
+ "loss": 3.1179,
1749
+ "step": 580
1750
+ },
1751
+ {
1752
+ "epoch": 0.87,
1753
+ "learning_rate": 0.000831421301406986,
1754
+ "loss": 3.1372,
1755
+ "step": 582
1756
+ },
1757
+ {
1758
+ "epoch": 0.88,
1759
+ "learning_rate": 0.0008302057871940576,
1760
+ "loss": 3.1243,
1761
+ "step": 584
1762
+ },
1763
+ {
1764
+ "epoch": 0.88,
1765
+ "learning_rate": 0.000828986802125965,
1766
+ "loss": 3.1579,
1767
+ "step": 586
1768
+ },
1769
+ {
1770
+ "epoch": 0.88,
1771
+ "learning_rate": 0.0008277643590156894,
1772
+ "loss": 3.1121,
1773
+ "step": 588
1774
+ },
1775
+ {
1776
+ "epoch": 0.88,
1777
+ "learning_rate": 0.0008265384707125607,
1778
+ "loss": 3.0315,
1779
+ "step": 590
1780
+ },
1781
+ {
1782
+ "epoch": 0.89,
1783
+ "learning_rate": 0.000825309150102121,
1784
+ "loss": 3.038,
1785
+ "step": 592
1786
+ },
1787
+ {
1788
+ "epoch": 0.89,
1789
+ "learning_rate": 0.0008240764101059912,
1790
+ "loss": 3.0075,
1791
+ "step": 594
1792
+ },
1793
+ {
1794
+ "epoch": 0.89,
1795
+ "learning_rate": 0.000822840263681733,
1796
+ "loss": 3.0818,
1797
+ "step": 596
1798
+ },
1799
+ {
1800
+ "epoch": 0.9,
1801
+ "learning_rate": 0.0008216007238227142,
1802
+ "loss": 2.9325,
1803
+ "step": 598
1804
+ },
1805
+ {
1806
+ "epoch": 0.9,
1807
+ "learning_rate": 0.0008203578035579715,
1808
+ "loss": 3.027,
1809
+ "step": 600
1810
+ },
1811
+ {
1812
+ "epoch": 0.9,
1813
+ "learning_rate": 0.0008191115159520736,
1814
+ "loss": 3.0189,
1815
+ "step": 602
1816
+ },
1817
+ {
1818
+ "epoch": 0.91,
1819
+ "learning_rate": 0.0008178618741049842,
1820
+ "loss": 3.1189,
1821
+ "step": 604
1822
+ },
1823
+ {
1824
+ "epoch": 0.91,
1825
+ "learning_rate": 0.0008166088911519235,
1826
+ "loss": 3.0247,
1827
+ "step": 606
1828
+ },
1829
+ {
1830
+ "epoch": 0.91,
1831
+ "learning_rate": 0.0008153525802632314,
1832
+ "loss": 3.1451,
1833
+ "step": 608
1834
+ },
1835
+ {
1836
+ "epoch": 0.91,
1837
+ "learning_rate": 0.0008140929546442281,
1838
+ "loss": 3.0669,
1839
+ "step": 610
1840
+ },
1841
+ {
1842
+ "epoch": 0.92,
1843
+ "learning_rate": 0.0008128300275350755,
1844
+ "loss": 3.0572,
1845
+ "step": 612
1846
+ },
1847
+ {
1848
+ "epoch": 0.92,
1849
+ "learning_rate": 0.0008115638122106381,
1850
+ "loss": 3.0819,
1851
+ "step": 614
1852
+ },
1853
+ {
1854
+ "epoch": 0.92,
1855
+ "learning_rate": 0.0008102943219803432,
1856
+ "loss": 3.0496,
1857
+ "step": 616
1858
+ },
1859
+ {
1860
+ "epoch": 0.93,
1861
+ "learning_rate": 0.0008090215701880418,
1862
+ "loss": 3.0546,
1863
+ "step": 618
1864
+ },
1865
+ {
1866
+ "epoch": 0.93,
1867
+ "learning_rate": 0.0008077455702118672,
1868
+ "loss": 2.9938,
1869
+ "step": 620
1870
+ },
1871
+ {
1872
+ "epoch": 0.93,
1873
+ "learning_rate": 0.0008064663354640956,
1874
+ "loss": 3.0158,
1875
+ "step": 622
1876
+ },
1877
+ {
1878
+ "epoch": 0.94,
1879
+ "learning_rate": 0.0008051838793910038,
1880
+ "loss": 3.0416,
1881
+ "step": 624
1882
+ },
1883
+ {
1884
+ "epoch": 0.94,
1885
+ "learning_rate": 0.0008038982154727288,
1886
+ "loss": 3.099,
1887
+ "step": 626
1888
+ },
1889
+ {
1890
+ "epoch": 0.94,
1891
+ "learning_rate": 0.0008026093572231265,
1892
+ "loss": 3.1077,
1893
+ "step": 628
1894
+ },
1895
+ {
1896
+ "epoch": 0.94,
1897
+ "learning_rate": 0.0008013173181896282,
1898
+ "loss": 3.1414,
1899
+ "step": 630
1900
+ },
1901
+ {
1902
+ "epoch": 0.95,
1903
+ "learning_rate": 0.0008000221119530993,
1904
+ "loss": 3.0767,
1905
+ "step": 632
1906
+ },
1907
+ {
1908
+ "epoch": 0.95,
1909
+ "learning_rate": 0.0007987237521276962,
1910
+ "loss": 3.1088,
1911
+ "step": 634
1912
+ },
1913
+ {
1914
+ "epoch": 0.95,
1915
+ "learning_rate": 0.0007974222523607236,
1916
+ "loss": 2.9668,
1917
+ "step": 636
1918
+ },
1919
+ {
1920
+ "epoch": 0.96,
1921
+ "learning_rate": 0.00079611762633249,
1922
+ "loss": 3.0896,
1923
+ "step": 638
1924
+ },
1925
+ {
1926
+ "epoch": 0.96,
1927
+ "learning_rate": 0.0007948098877561656,
1928
+ "loss": 3.0452,
1929
+ "step": 640
1930
+ },
1931
+ {
1932
+ "epoch": 0.96,
1933
+ "learning_rate": 0.0007934990503776362,
1934
+ "loss": 3.0254,
1935
+ "step": 642
1936
+ },
1937
+ {
1938
+ "epoch": 0.97,
1939
+ "learning_rate": 0.0007921851279753605,
1940
+ "loss": 2.9948,
1941
+ "step": 644
1942
+ },
1943
+ {
1944
+ "epoch": 0.97,
1945
+ "learning_rate": 0.0007908681343602239,
1946
+ "loss": 3.0823,
1947
+ "step": 646
1948
+ },
1949
+ {
1950
+ "epoch": 0.97,
1951
+ "learning_rate": 0.0007895480833753941,
1952
+ "loss": 3.046,
1953
+ "step": 648
1954
+ },
1955
+ {
1956
+ "epoch": 0.97,
1957
+ "learning_rate": 0.0007882249888961756,
1958
+ "loss": 3.0161,
1959
+ "step": 650
1960
+ },
1961
+ {
1962
+ "epoch": 0.98,
1963
+ "learning_rate": 0.0007868988648298632,
1964
+ "loss": 3.0123,
1965
+ "step": 652
1966
+ },
1967
+ {
1968
+ "epoch": 0.98,
1969
+ "learning_rate": 0.0007855697251155966,
1970
+ "loss": 3.0149,
1971
+ "step": 654
1972
+ },
1973
+ {
1974
+ "epoch": 0.98,
1975
+ "learning_rate": 0.0007842375837242135,
1976
+ "loss": 3.0469,
1977
+ "step": 656
1978
+ },
1979
+ {
1980
+ "epoch": 0.99,
1981
+ "learning_rate": 0.0007829024546581028,
1982
+ "loss": 2.9942,
1983
+ "step": 658
1984
+ },
1985
+ {
1986
+ "epoch": 0.99,
1987
+ "learning_rate": 0.0007815643519510571,
1988
+ "loss": 3.0357,
1989
+ "step": 660
1990
+ },
1991
+ {
1992
+ "epoch": 0.99,
1993
+ "learning_rate": 0.0007802232896681259,
1994
+ "loss": 3.067,
1995
+ "step": 662
1996
+ },
1997
+ {
1998
+ "epoch": 1.0,
1999
+ "learning_rate": 0.0007788792819054671,
2000
+ "loss": 3.1541,
2001
+ "step": 664
2002
+ },
2003
+ {
2004
+ "epoch": 1.0,
2005
+ "learning_rate": 0.0007775323427901993,
2006
+ "loss": 3.0369,
2007
+ "step": 666
2008
+ },
2009
+ {
2010
+ "epoch": 1.0,
2011
+ "learning_rate": 0.0007761824864802529,
2012
+ "loss": 3.0113,
2013
+ "step": 668
2014
+ },
2015
+ {
2016
+ "epoch": 1.0,
2017
+ "learning_rate": 0.0007748297271642217,
2018
+ "loss": 2.9982,
2019
+ "step": 670
2020
+ },
2021
+ {
2022
+ "epoch": 1.01,
2023
+ "learning_rate": 0.0007734740790612135,
2024
+ "loss": 3.096,
2025
+ "step": 672
2026
+ },
2027
+ {
2028
+ "epoch": 1.01,
2029
+ "learning_rate": 0.0007721155564207003,
2030
+ "loss": 3.0855,
2031
+ "step": 674
2032
+ },
2033
+ {
2034
+ "epoch": 1.01,
2035
+ "learning_rate": 0.0007707541735223696,
2036
+ "loss": 2.9968,
2037
+ "step": 676
2038
+ },
2039
+ {
2040
+ "epoch": 1.02,
2041
+ "learning_rate": 0.0007693899446759726,
2042
+ "loss": 2.9785,
2043
+ "step": 678
2044
+ },
2045
+ {
2046
+ "epoch": 1.02,
2047
+ "learning_rate": 0.0007680228842211761,
2048
+ "loss": 3.0486,
2049
+ "step": 680
2050
+ },
2051
+ {
2052
+ "epoch": 1.02,
2053
+ "learning_rate": 0.0007666530065274095,
2054
+ "loss": 2.9842,
2055
+ "step": 682
2056
+ },
2057
+ {
2058
+ "epoch": 1.03,
2059
+ "learning_rate": 0.0007652803259937149,
2060
+ "loss": 2.9948,
2061
+ "step": 684
2062
+ },
2063
+ {
2064
+ "epoch": 1.03,
2065
+ "learning_rate": 0.0007639048570485959,
2066
+ "loss": 3.0215,
2067
+ "step": 686
2068
+ },
2069
+ {
2070
+ "epoch": 1.03,
2071
+ "learning_rate": 0.0007625266141498652,
2072
+ "loss": 3.0239,
2073
+ "step": 688
2074
+ },
2075
+ {
2076
+ "epoch": 1.03,
2077
+ "learning_rate": 0.0007611456117844934,
2078
+ "loss": 2.9793,
2079
+ "step": 690
2080
+ },
2081
+ {
2082
+ "epoch": 1.04,
2083
+ "learning_rate": 0.0007597618644684561,
2084
+ "loss": 3.0626,
2085
+ "step": 692
2086
+ },
2087
+ {
2088
+ "epoch": 1.04,
2089
+ "learning_rate": 0.0007583753867465817,
2090
+ "loss": 3.0347,
2091
+ "step": 694
2092
+ },
2093
+ {
2094
+ "epoch": 1.04,
2095
+ "learning_rate": 0.0007569861931923988,
2096
+ "loss": 3.0613,
2097
+ "step": 696
2098
+ },
2099
+ {
2100
+ "epoch": 1.05,
2101
+ "learning_rate": 0.0007555942984079818,
2102
+ "loss": 3.0091,
2103
+ "step": 698
2104
+ },
2105
+ {
2106
+ "epoch": 1.05,
2107
+ "learning_rate": 0.0007541997170237988,
2108
+ "loss": 3.0689,
2109
+ "step": 700
2110
+ },
2111
+ {
2112
+ "epoch": 1.05,
2113
+ "learning_rate": 0.0007528024636985574,
2114
+ "loss": 3.0532,
2115
+ "step": 702
2116
+ },
2117
+ {
2118
+ "epoch": 1.06,
2119
+ "learning_rate": 0.0007514025531190499,
2120
+ "loss": 2.9822,
2121
+ "step": 704
2122
+ },
2123
+ {
2124
+ "epoch": 1.06,
2125
+ "learning_rate": 0.00075,
2126
+ "loss": 2.9697,
2127
+ "step": 706
2128
+ },
2129
+ {
2130
+ "epoch": 1.06,
2131
+ "learning_rate": 0.0007485948190839076,
2132
+ "loss": 3.002,
2133
+ "step": 708
2134
+ },
2135
+ {
2136
+ "epoch": 1.06,
2137
+ "learning_rate": 0.0007471870251408932,
2138
+ "loss": 2.9576,
2139
+ "step": 710
2140
+ },
2141
+ {
2142
+ "epoch": 1.07,
2143
+ "learning_rate": 0.0007457766329685444,
2144
+ "loss": 2.9928,
2145
+ "step": 712
2146
+ },
2147
+ {
2148
+ "epoch": 1.07,
2149
+ "learning_rate": 0.0007443636573917584,
2150
+ "loss": 3.0363,
2151
+ "step": 714
2152
+ },
2153
+ {
2154
+ "epoch": 1.07,
2155
+ "learning_rate": 0.0007429481132625876,
2156
+ "loss": 2.9717,
2157
+ "step": 716
2158
+ },
2159
+ {
2160
+ "epoch": 1.08,
2161
+ "learning_rate": 0.0007415300154600823,
2162
+ "loss": 3.092,
2163
+ "step": 718
2164
+ },
2165
+ {
2166
+ "epoch": 1.08,
2167
+ "learning_rate": 0.0007401093788901359,
2168
+ "loss": 3.026,
2169
+ "step": 720
2170
+ },
2171
+ {
2172
+ "epoch": 1.08,
2173
+ "learning_rate": 0.0007386862184853263,
2174
+ "loss": 3.0774,
2175
+ "step": 722
2176
+ },
2177
+ {
2178
+ "epoch": 1.09,
2179
+ "learning_rate": 0.0007372605492047604,
2180
+ "loss": 2.9808,
2181
+ "step": 724
2182
+ },
2183
+ {
2184
+ "epoch": 1.09,
2185
+ "learning_rate": 0.0007358323860339165,
2186
+ "loss": 3.0889,
2187
+ "step": 726
2188
+ },
2189
+ {
2190
+ "epoch": 1.09,
2191
+ "learning_rate": 0.0007344017439844861,
2192
+ "loss": 3.0375,
2193
+ "step": 728
2194
+ },
2195
+ {
2196
+ "epoch": 1.09,
2197
+ "learning_rate": 0.0007329686380942172,
2198
+ "loss": 3.0355,
2199
+ "step": 730
2200
+ },
2201
+ {
2202
+ "epoch": 1.1,
2203
+ "learning_rate": 0.0007315330834267553,
2204
+ "loss": 3.0297,
2205
+ "step": 732
2206
+ },
2207
+ {
2208
+ "epoch": 1.1,
2209
+ "learning_rate": 0.0007300950950714859,
2210
+ "loss": 3.0796,
2211
+ "step": 734
2212
+ },
2213
+ {
2214
+ "epoch": 1.1,
2215
+ "learning_rate": 0.000728654688143375,
2216
+ "loss": 3.0715,
2217
+ "step": 736
2218
+ },
2219
+ {
2220
+ "epoch": 1.11,
2221
+ "learning_rate": 0.0007272118777828108,
2222
+ "loss": 3.06,
2223
+ "step": 738
2224
+ },
2225
+ {
2226
+ "epoch": 1.11,
2227
+ "learning_rate": 0.0007257666791554447,
2228
+ "loss": 2.9978,
2229
+ "step": 740
2230
+ },
2231
+ {
2232
+ "epoch": 1.11,
2233
+ "learning_rate": 0.0007243191074520313,
2234
+ "loss": 3.0066,
2235
+ "step": 742
2236
+ },
2237
+ {
2238
+ "epoch": 1.12,
2239
+ "learning_rate": 0.0007228691778882692,
2240
+ "loss": 3.0316,
2241
+ "step": 744
2242
+ },
2243
+ {
2244
+ "epoch": 1.12,
2245
+ "learning_rate": 0.0007214169057046407,
2246
+ "loss": 2.9117,
2247
+ "step": 746
2248
+ },
2249
+ {
2250
+ "epoch": 1.12,
2251
+ "learning_rate": 0.0007199623061662524,
2252
+ "loss": 3.1748,
2253
+ "step": 748
2254
+ },
2255
+ {
2256
+ "epoch": 1.12,
2257
+ "learning_rate": 0.0007185053945626734,
2258
+ "loss": 3.0413,
2259
+ "step": 750
2260
+ },
2261
+ {
2262
+ "epoch": 1.13,
2263
+ "learning_rate": 0.0007170461862077758,
2264
+ "loss": 3.0589,
2265
+ "step": 752
2266
+ },
2267
+ {
2268
+ "epoch": 1.13,
2269
+ "learning_rate": 0.0007155846964395733,
2270
+ "loss": 3.0517,
2271
+ "step": 754
2272
+ },
2273
+ {
2274
+ "epoch": 1.13,
2275
+ "learning_rate": 0.0007141209406200599,
2276
+ "loss": 3.0064,
2277
+ "step": 756
2278
+ },
2279
+ {
2280
+ "epoch": 1.14,
2281
+ "learning_rate": 0.0007126549341350481,
2282
+ "loss": 3.0397,
2283
+ "step": 758
2284
+ },
2285
+ {
2286
+ "epoch": 1.14,
2287
+ "learning_rate": 0.0007111866923940083,
2288
+ "loss": 3.0026,
2289
+ "step": 760
2290
+ },
2291
+ {
2292
+ "epoch": 1.14,
2293
+ "learning_rate": 0.0007097162308299054,
2294
+ "loss": 3.0983,
2295
+ "step": 762
2296
+ },
2297
+ {
2298
+ "epoch": 1.15,
2299
+ "learning_rate": 0.000708243564899038,
2300
+ "loss": 3.0596,
2301
+ "step": 764
2302
+ },
2303
+ {
2304
+ "epoch": 1.15,
2305
+ "learning_rate": 0.0007067687100808746,
2306
+ "loss": 3.0231,
2307
+ "step": 766
2308
+ },
2309
+ {
2310
+ "epoch": 1.15,
2311
+ "learning_rate": 0.0007052916818778917,
2312
+ "loss": 2.9973,
2313
+ "step": 768
2314
+ },
2315
+ {
2316
+ "epoch": 1.15,
2317
+ "learning_rate": 0.0007038124958154107,
2318
+ "loss": 3.0255,
2319
+ "step": 770
2320
+ },
2321
+ {
2322
+ "epoch": 1.16,
2323
+ "learning_rate": 0.0007023311674414346,
2324
+ "loss": 3.014,
2325
+ "step": 772
2326
+ },
2327
+ {
2328
+ "epoch": 1.16,
2329
+ "learning_rate": 0.0007008477123264848,
2330
+ "loss": 3.0599,
2331
+ "step": 774
2332
+ },
2333
+ {
2334
+ "epoch": 1.16,
2335
+ "learning_rate": 0.0006993621460634371,
2336
+ "loss": 2.9894,
2337
+ "step": 776
2338
+ },
2339
+ {
2340
+ "epoch": 1.17,
2341
+ "learning_rate": 0.0006978744842673578,
2342
+ "loss": 3.0425,
2343
+ "step": 778
2344
+ },
2345
+ {
2346
+ "epoch": 1.17,
2347
+ "learning_rate": 0.0006963847425753403,
2348
+ "loss": 2.9104,
2349
+ "step": 780
2350
+ },
2351
+ {
2352
+ "epoch": 1.17,
2353
+ "learning_rate": 0.0006948929366463397,
2354
+ "loss": 3.0354,
2355
+ "step": 782
2356
+ },
2357
+ {
2358
+ "epoch": 1.18,
2359
+ "learning_rate": 0.000693399082161009,
2360
+ "loss": 2.9845,
2361
+ "step": 784
2362
+ },
2363
+ {
2364
+ "epoch": 1.18,
2365
+ "learning_rate": 0.0006919031948215334,
2366
+ "loss": 3.0603,
2367
+ "step": 786
2368
+ },
2369
+ {
2370
+ "epoch": 1.18,
2371
+ "learning_rate": 0.0006904052903514667,
2372
+ "loss": 3.0064,
2373
+ "step": 788
2374
+ },
2375
+ {
2376
+ "epoch": 1.18,
2377
+ "learning_rate": 0.0006889053844955644,
2378
+ "loss": 2.9234,
2379
+ "step": 790
2380
+ },
2381
+ {
2382
+ "epoch": 1.19,
2383
+ "learning_rate": 0.000687403493019619,
2384
+ "loss": 3.049,
2385
+ "step": 792
2386
+ },
2387
+ {
2388
+ "epoch": 1.19,
2389
+ "learning_rate": 0.0006858996317102947,
2390
+ "loss": 2.947,
2391
+ "step": 794
2392
+ },
2393
+ {
2394
+ "epoch": 1.19,
2395
+ "learning_rate": 0.0006843938163749607,
2396
+ "loss": 3.0998,
2397
+ "step": 796
2398
+ },
2399
+ {
2400
+ "epoch": 1.2,
2401
+ "learning_rate": 0.0006828860628415253,
2402
+ "loss": 2.9762,
2403
+ "step": 798
2404
+ },
2405
+ {
2406
+ "epoch": 1.2,
2407
+ "learning_rate": 0.0006813763869582694,
2408
+ "loss": 2.9873,
2409
+ "step": 800
2410
+ },
2411
+ {
2412
+ "epoch": 1.2,
2413
+ "learning_rate": 0.0006798648045936806,
2414
+ "loss": 3.0379,
2415
+ "step": 802
2416
+ },
2417
+ {
2418
+ "epoch": 1.21,
2419
+ "learning_rate": 0.0006783513316362855,
2420
+ "loss": 3.094,
2421
+ "step": 804
2422
+ },
2423
+ {
2424
+ "epoch": 1.21,
2425
+ "learning_rate": 0.0006768359839944829,
2426
+ "loss": 2.9704,
2427
+ "step": 806
2428
+ },
2429
+ {
2430
+ "epoch": 1.21,
2431
+ "learning_rate": 0.0006753187775963773,
2432
+ "loss": 3.0549,
2433
+ "step": 808
2434
+ },
2435
+ {
2436
+ "epoch": 1.21,
2437
+ "learning_rate": 0.0006737997283896103,
2438
+ "loss": 3.0124,
2439
+ "step": 810
2440
+ },
2441
+ {
2442
+ "epoch": 1.22,
2443
+ "learning_rate": 0.0006722788523411945,
2444
+ "loss": 2.9993,
2445
+ "step": 812
2446
+ },
2447
+ {
2448
+ "epoch": 1.22,
2449
+ "learning_rate": 0.0006707561654373435,
2450
+ "loss": 3.003,
2451
+ "step": 814
2452
+ },
2453
+ {
2454
+ "epoch": 1.22,
2455
+ "learning_rate": 0.0006692316836833065,
2456
+ "loss": 3.0585,
2457
+ "step": 816
2458
+ },
2459
+ {
2460
+ "epoch": 1.23,
2461
+ "learning_rate": 0.0006677054231031981,
2462
+ "loss": 3.0806,
2463
+ "step": 818
2464
+ },
2465
+ {
2466
+ "epoch": 1.23,
2467
+ "learning_rate": 0.0006661773997398298,
2468
+ "loss": 2.9568,
2469
+ "step": 820
2470
+ },
2471
+ {
2472
+ "epoch": 1.23,
2473
+ "learning_rate": 0.0006646476296545434,
2474
+ "loss": 2.964,
2475
+ "step": 822
2476
+ },
2477
+ {
2478
+ "epoch": 1.24,
2479
+ "learning_rate": 0.0006631161289270398,
2480
+ "loss": 3.034,
2481
+ "step": 824
2482
+ },
2483
+ {
2484
+ "epoch": 1.24,
2485
+ "learning_rate": 0.0006615829136552111,
2486
+ "loss": 2.9911,
2487
+ "step": 826
2488
+ },
2489
+ {
2490
+ "epoch": 1.24,
2491
+ "learning_rate": 0.000660047999954972,
2492
+ "loss": 3.0209,
2493
+ "step": 828
2494
+ },
2495
+ {
2496
+ "epoch": 1.24,
2497
+ "learning_rate": 0.000658511403960089,
2498
+ "loss": 3.0301,
2499
+ "step": 830
2500
+ },
2501
+ {
2502
+ "epoch": 1.25,
2503
+ "learning_rate": 0.0006569731418220119,
2504
+ "loss": 3.0476,
2505
+ "step": 832
2506
+ },
2507
+ {
2508
+ "epoch": 1.25,
2509
+ "learning_rate": 0.000655433229709703,
2510
+ "loss": 3.0308,
2511
+ "step": 834
2512
+ },
2513
+ {
2514
+ "epoch": 1.25,
2515
+ "learning_rate": 0.0006538916838094691,
2516
+ "loss": 3.0044,
2517
+ "step": 836
2518
+ },
2519
+ {
2520
+ "epoch": 1.26,
2521
+ "learning_rate": 0.0006523485203247885,
2522
+ "loss": 2.991,
2523
+ "step": 838
2524
+ },
2525
+ {
2526
+ "epoch": 1.26,
2527
+ "learning_rate": 0.0006508037554761433,
2528
+ "loss": 3.0228,
2529
+ "step": 840
2530
+ },
2531
+ {
2532
+ "epoch": 1.26,
2533
+ "learning_rate": 0.0006492574055008473,
2534
+ "loss": 2.9734,
2535
+ "step": 842
2536
+ },
2537
+ {
2538
+ "epoch": 1.27,
2539
+ "learning_rate": 0.0006477094866528763,
2540
+ "loss": 2.9384,
2541
+ "step": 844
2542
+ },
2543
+ {
2544
+ "epoch": 1.27,
2545
+ "learning_rate": 0.0006461600152026965,
2546
+ "loss": 3.0445,
2547
+ "step": 846
2548
+ },
2549
+ {
2550
+ "epoch": 1.27,
2551
+ "learning_rate": 0.0006446090074370938,
2552
+ "loss": 3.0538,
2553
+ "step": 848
2554
+ },
2555
+ {
2556
+ "epoch": 1.27,
2557
+ "learning_rate": 0.0006430564796590029,
2558
+ "loss": 2.9255,
2559
+ "step": 850
2560
+ },
2561
+ {
2562
+ "epoch": 1.28,
2563
+ "learning_rate": 0.0006415024481873352,
2564
+ "loss": 2.9812,
2565
+ "step": 852
2566
+ },
2567
+ {
2568
+ "epoch": 1.28,
2569
+ "learning_rate": 0.0006399469293568078,
2570
+ "loss": 3.0266,
2571
+ "step": 854
2572
+ },
2573
+ {
2574
+ "epoch": 1.28,
2575
+ "learning_rate": 0.0006383899395177723,
2576
+ "loss": 3.0576,
2577
+ "step": 856
2578
+ },
2579
+ {
2580
+ "epoch": 1.29,
2581
+ "learning_rate": 0.0006368314950360416,
2582
+ "loss": 3.05,
2583
+ "step": 858
2584
+ },
2585
+ {
2586
+ "epoch": 1.29,
2587
+ "learning_rate": 0.0006352716122927187,
2588
+ "loss": 2.9922,
2589
+ "step": 860
2590
+ },
2591
+ {
2592
+ "epoch": 1.29,
2593
+ "learning_rate": 0.0006337103076840247,
2594
+ "loss": 3.0996,
2595
+ "step": 862
2596
+ },
2597
+ {
2598
+ "epoch": 1.3,
2599
+ "learning_rate": 0.0006321475976211266,
2600
+ "loss": 3.0066,
2601
+ "step": 864
2602
+ },
2603
+ {
2604
+ "epoch": 1.3,
2605
+ "learning_rate": 0.0006305834985299634,
2606
+ "loss": 3.008,
2607
+ "step": 866
2608
+ },
2609
+ {
2610
+ "epoch": 1.3,
2611
+ "learning_rate": 0.0006290180268510753,
2612
+ "loss": 3.0174,
2613
+ "step": 868
2614
+ },
2615
+ {
2616
+ "epoch": 1.3,
2617
+ "learning_rate": 0.0006274511990394294,
2618
+ "loss": 2.9462,
2619
+ "step": 870
2620
+ },
2621
+ {
2622
+ "epoch": 1.31,
2623
+ "learning_rate": 0.0006258830315642479,
2624
+ "loss": 3.0322,
2625
+ "step": 872
2626
+ },
2627
+ {
2628
+ "epoch": 1.31,
2629
+ "learning_rate": 0.000624313540908834,
2630
+ "loss": 2.9997,
2631
+ "step": 874
2632
+ },
2633
+ {
2634
+ "epoch": 1.31,
2635
+ "learning_rate": 0.0006227427435703996,
2636
+ "loss": 3.0702,
2637
+ "step": 876
2638
+ },
2639
+ {
2640
+ "epoch": 1.32,
2641
+ "learning_rate": 0.0006211706560598909,
2642
+ "loss": 3.0217,
2643
+ "step": 878
2644
+ },
2645
+ {
2646
+ "epoch": 1.32,
2647
+ "learning_rate": 0.0006195972949018156,
2648
+ "loss": 2.9715,
2649
+ "step": 880
2650
+ },
2651
+ {
2652
+ "epoch": 1.32,
2653
+ "learning_rate": 0.0006180226766340687,
2654
+ "loss": 2.9541,
2655
+ "step": 882
2656
+ },
2657
+ {
2658
+ "epoch": 1.33,
2659
+ "learning_rate": 0.0006164468178077594,
2660
+ "loss": 2.8952,
2661
+ "step": 884
2662
+ },
2663
+ {
2664
+ "epoch": 1.33,
2665
+ "learning_rate": 0.0006148697349870364,
2666
+ "loss": 3.1354,
2667
+ "step": 886
2668
+ },
2669
+ {
2670
+ "epoch": 1.33,
2671
+ "learning_rate": 0.0006132914447489137,
2672
+ "loss": 2.9475,
2673
+ "step": 888
2674
+ },
2675
+ {
2676
+ "epoch": 1.33,
2677
+ "learning_rate": 0.000611711963683097,
2678
+ "loss": 3.0495,
2679
+ "step": 890
2680
+ },
2681
+ {
2682
+ "epoch": 1.34,
2683
+ "learning_rate": 0.0006101313083918094,
2684
+ "loss": 3.0813,
2685
+ "step": 892
2686
+ },
2687
+ {
2688
+ "epoch": 1.34,
2689
+ "learning_rate": 0.0006085494954896156,
2690
+ "loss": 3.0152,
2691
+ "step": 894
2692
+ },
2693
+ {
2694
+ "epoch": 1.34,
2695
+ "learning_rate": 0.0006069665416032487,
2696
+ "loss": 3.024,
2697
+ "step": 896
2698
+ },
2699
+ {
2700
+ "epoch": 1.35,
2701
+ "learning_rate": 0.0006053824633714352,
2702
+ "loss": 3.0154,
2703
+ "step": 898
2704
+ },
2705
+ {
2706
+ "epoch": 1.35,
2707
+ "learning_rate": 0.0006037972774447193,
2708
+ "loss": 3.0326,
2709
+ "step": 900
2710
+ },
2711
+ {
2712
+ "epoch": 1.35,
2713
+ "learning_rate": 0.0006022110004852886,
2714
+ "loss": 3.0291,
2715
+ "step": 902
2716
+ },
2717
+ {
2718
+ "epoch": 1.36,
2719
+ "learning_rate": 0.0006006236491667988,
2720
+ "loss": 2.9197,
2721
+ "step": 904
2722
+ },
2723
+ {
2724
+ "epoch": 1.36,
2725
+ "learning_rate": 0.0005990352401741981,
2726
+ "loss": 3.061,
2727
+ "step": 906
2728
+ },
2729
+ {
2730
+ "epoch": 1.36,
2731
+ "learning_rate": 0.0005974457902035524,
2732
+ "loss": 3.0031,
2733
+ "step": 908
2734
+ },
2735
+ {
2736
+ "epoch": 1.36,
2737
+ "learning_rate": 0.0005958553159618693,
2738
+ "loss": 2.9831,
2739
+ "step": 910
2740
+ },
2741
+ {
2742
+ "epoch": 1.37,
2743
+ "learning_rate": 0.000594263834166923,
2744
+ "loss": 2.8875,
2745
+ "step": 912
2746
+ },
2747
+ {
2748
+ "epoch": 1.37,
2749
+ "learning_rate": 0.0005926713615470781,
2750
+ "loss": 2.9443,
2751
+ "step": 914
2752
+ },
2753
+ {
2754
+ "epoch": 1.37,
2755
+ "learning_rate": 0.0005910779148411139,
2756
+ "loss": 2.9862,
2757
+ "step": 916
2758
+ },
2759
+ {
2760
+ "epoch": 1.38,
2761
+ "learning_rate": 0.0005894835107980487,
2762
+ "loss": 2.9099,
2763
+ "step": 918
2764
+ },
2765
+ {
2766
+ "epoch": 1.38,
2767
+ "learning_rate": 0.0005878881661769633,
2768
+ "loss": 3.0011,
2769
+ "step": 920
2770
+ },
2771
+ {
2772
+ "epoch": 1.38,
2773
+ "learning_rate": 0.0005862918977468252,
2774
+ "loss": 3.0399,
2775
+ "step": 922
2776
+ },
2777
+ {
2778
+ "epoch": 1.39,
2779
+ "learning_rate": 0.0005846947222863122,
2780
+ "loss": 2.9887,
2781
+ "step": 924
2782
+ },
2783
+ {
2784
+ "epoch": 1.39,
2785
+ "learning_rate": 0.0005830966565836364,
2786
+ "loss": 3.0683,
2787
+ "step": 926
2788
+ },
2789
+ {
2790
+ "epoch": 1.39,
2791
+ "learning_rate": 0.0005814977174363667,
2792
+ "loss": 2.9149,
2793
+ "step": 928
2794
+ },
2795
+ {
2796
+ "epoch": 1.39,
2797
+ "learning_rate": 0.0005798979216512536,
2798
+ "loss": 2.9687,
2799
+ "step": 930
2800
+ },
2801
+ {
2802
+ "epoch": 1.4,
2803
+ "learning_rate": 0.0005782972860440516,
2804
+ "loss": 2.9701,
2805
+ "step": 932
2806
+ },
2807
+ {
2808
+ "epoch": 1.4,
2809
+ "learning_rate": 0.0005766958274393427,
2810
+ "loss": 2.9413,
2811
+ "step": 934
2812
+ },
2813
+ {
2814
+ "epoch": 1.4,
2815
+ "learning_rate": 0.0005750935626703597,
2816
+ "loss": 2.957,
2817
+ "step": 936
2818
+ },
2819
+ {
2820
+ "epoch": 1.41,
2821
+ "learning_rate": 0.000573490508578809,
2822
+ "loss": 2.9828,
2823
+ "step": 938
2824
+ },
2825
+ {
2826
+ "epoch": 1.41,
2827
+ "learning_rate": 0.0005718866820146939,
2828
+ "loss": 3.0001,
2829
+ "step": 940
2830
+ },
2831
+ {
2832
+ "epoch": 1.41,
2833
+ "learning_rate": 0.0005702820998361374,
2834
+ "loss": 3.0025,
2835
+ "step": 942
2836
+ },
2837
+ {
2838
+ "epoch": 1.42,
2839
+ "learning_rate": 0.0005686767789092041,
2840
+ "loss": 2.9533,
2841
+ "step": 944
2842
+ },
2843
+ {
2844
+ "epoch": 1.42,
2845
+ "learning_rate": 0.0005670707361077248,
2846
+ "loss": 2.9609,
2847
+ "step": 946
2848
+ },
2849
+ {
2850
+ "epoch": 1.42,
2851
+ "learning_rate": 0.0005654639883131177,
2852
+ "loss": 2.9436,
2853
+ "step": 948
2854
+ },
2855
+ {
2856
+ "epoch": 1.42,
2857
+ "learning_rate": 0.0005638565524142111,
2858
+ "loss": 3.0611,
2859
+ "step": 950
2860
+ },
2861
+ {
2862
+ "epoch": 1.43,
2863
+ "learning_rate": 0.0005622484453070659,
2864
+ "loss": 2.9534,
2865
+ "step": 952
2866
+ },
2867
+ {
2868
+ "epoch": 1.43,
2869
+ "learning_rate": 0.0005606396838947988,
2870
+ "loss": 2.9273,
2871
+ "step": 954
2872
+ },
2873
+ {
2874
+ "epoch": 1.43,
2875
+ "learning_rate": 0.0005590302850874038,
2876
+ "loss": 2.9508,
2877
+ "step": 956
2878
+ },
2879
+ {
2880
+ "epoch": 1.44,
2881
+ "learning_rate": 0.0005574202658015743,
2882
+ "loss": 2.9236,
2883
+ "step": 958
2884
+ },
2885
+ {
2886
+ "epoch": 1.44,
2887
+ "learning_rate": 0.0005558096429605263,
2888
+ "loss": 3.0019,
2889
+ "step": 960
2890
+ },
2891
+ {
2892
+ "epoch": 1.44,
2893
+ "learning_rate": 0.0005541984334938193,
2894
+ "loss": 2.8604,
2895
+ "step": 962
2896
+ },
2897
+ {
2898
+ "epoch": 1.45,
2899
+ "learning_rate": 0.0005525866543371794,
2900
+ "loss": 3.0586,
2901
+ "step": 964
2902
+ },
2903
+ {
2904
+ "epoch": 1.45,
2905
+ "learning_rate": 0.0005509743224323203,
2906
+ "loss": 2.9611,
2907
+ "step": 966
2908
+ },
2909
+ {
2910
+ "epoch": 1.45,
2911
+ "learning_rate": 0.0005493614547267664,
2912
+ "loss": 2.9948,
2913
+ "step": 968
2914
+ },
2915
+ {
2916
+ "epoch": 1.45,
2917
+ "learning_rate": 0.0005477480681736734,
2918
+ "loss": 2.9898,
2919
+ "step": 970
2920
+ },
2921
+ {
2922
+ "epoch": 1.46,
2923
+ "learning_rate": 0.000546134179731651,
2924
+ "loss": 2.9321,
2925
+ "step": 972
2926
+ },
2927
+ {
2928
+ "epoch": 1.46,
2929
+ "learning_rate": 0.0005445198063645844,
2930
+ "loss": 2.9414,
2931
+ "step": 974
2932
+ },
2933
+ {
2934
+ "epoch": 1.46,
2935
+ "learning_rate": 0.0005429049650414559,
2936
+ "loss": 2.9475,
2937
+ "step": 976
2938
+ },
2939
+ {
2940
+ "epoch": 1.47,
2941
+ "learning_rate": 0.0005412896727361663,
2942
+ "loss": 2.9804,
2943
+ "step": 978
2944
+ },
2945
+ {
2946
+ "epoch": 1.47,
2947
+ "learning_rate": 0.0005396739464273569,
2948
+ "loss": 2.9983,
2949
+ "step": 980
2950
+ },
2951
+ {
2952
+ "epoch": 1.47,
2953
+ "learning_rate": 0.0005380578030982312,
2954
+ "loss": 3.0779,
2955
+ "step": 982
2956
+ },
2957
+ {
2958
+ "epoch": 1.48,
2959
+ "learning_rate": 0.0005364412597363759,
2960
+ "loss": 2.9794,
2961
+ "step": 984
2962
+ },
2963
+ {
2964
+ "epoch": 1.48,
2965
+ "learning_rate": 0.0005348243333335822,
2966
+ "loss": 2.9605,
2967
+ "step": 986
2968
+ },
2969
+ {
2970
+ "epoch": 1.48,
2971
+ "learning_rate": 0.0005332070408856681,
2972
+ "loss": 3.0284,
2973
+ "step": 988
2974
+ },
2975
+ {
2976
+ "epoch": 1.48,
2977
+ "learning_rate": 0.0005315893993922986,
2978
+ "loss": 2.9326,
2979
+ "step": 990
2980
+ },
2981
+ {
2982
+ "epoch": 1.49,
2983
+ "learning_rate": 0.0005299714258568077,
2984
+ "loss": 2.9585,
2985
+ "step": 992
2986
+ },
2987
+ {
2988
+ "epoch": 1.49,
2989
+ "learning_rate": 0.0005283531372860201,
2990
+ "loss": 3.0361,
2991
+ "step": 994
2992
+ },
2993
+ {
2994
+ "epoch": 1.49,
2995
+ "learning_rate": 0.0005267345506900711,
2996
+ "loss": 3.0862,
2997
+ "step": 996
2998
+ },
2999
+ {
3000
+ "epoch": 1.5,
3001
+ "learning_rate": 0.0005251156830822293,
3002
+ "loss": 3.0291,
3003
+ "step": 998
3004
+ },
3005
+ {
3006
+ "epoch": 1.5,
3007
+ "learning_rate": 0.0005234965514787163,
3008
+ "loss": 2.9456,
3009
+ "step": 1000
3010
+ },
3011
+ {
3012
+ "epoch": 1.5,
3013
+ "learning_rate": 0.0005218771728985295,
3014
+ "loss": 3.018,
3015
+ "step": 1002
3016
+ },
3017
+ {
3018
+ "epoch": 1.51,
3019
+ "learning_rate": 0.0005202575643632618,
3020
+ "loss": 3.0228,
3021
+ "step": 1004
3022
+ },
3023
+ {
3024
+ "epoch": 1.51,
3025
+ "learning_rate": 0.0005186377428969231,
3026
+ "loss": 3.0392,
3027
+ "step": 1006
3028
+ },
3029
+ {
3030
+ "epoch": 1.51,
3031
+ "learning_rate": 0.0005170177255257618,
3032
+ "loss": 2.949,
3033
+ "step": 1008
3034
+ },
3035
+ {
3036
+ "epoch": 1.51,
3037
+ "learning_rate": 0.0005153975292780852,
3038
+ "loss": 2.9009,
3039
+ "step": 1010
3040
+ },
3041
+ {
3042
+ "epoch": 1.52,
3043
+ "learning_rate": 0.0005137771711840811,
3044
+ "loss": 2.8987,
3045
+ "step": 1012
3046
+ },
3047
+ {
3048
+ "epoch": 1.52,
3049
+ "learning_rate": 0.000512156668275638,
3050
+ "loss": 2.9441,
3051
+ "step": 1014
3052
+ },
3053
+ {
3054
+ "epoch": 1.52,
3055
+ "learning_rate": 0.0005105360375861673,
3056
+ "loss": 3.0983,
3057
+ "step": 1016
3058
+ },
3059
+ {
3060
+ "epoch": 1.53,
3061
+ "learning_rate": 0.000508915296150423,
3062
+ "loss": 3.0159,
3063
+ "step": 1018
3064
+ },
3065
+ {
3066
+ "epoch": 1.53,
3067
+ "learning_rate": 0.0005072944610043232,
3068
+ "loss": 2.9877,
3069
+ "step": 1020
3070
+ },
3071
+ {
3072
+ "epoch": 1.53,
3073
+ "learning_rate": 0.0005056735491847711,
3074
+ "loss": 3.0371,
3075
+ "step": 1022
3076
+ },
3077
+ {
3078
+ "epoch": 1.54,
3079
+ "learning_rate": 0.0005040525777294761,
3080
+ "loss": 2.915,
3081
+ "step": 1024
3082
+ },
3083
+ {
3084
+ "epoch": 1.54,
3085
+ "learning_rate": 0.0005024315636767738,
3086
+ "loss": 2.9735,
3087
+ "step": 1026
3088
+ },
3089
+ {
3090
+ "epoch": 1.54,
3091
+ "learning_rate": 0.0005008105240654483,
3092
+ "loss": 2.9625,
3093
+ "step": 1028
3094
+ },
3095
+ {
3096
+ "epoch": 1.54,
3097
+ "learning_rate": 0.0004991894759345519,
3098
+ "loss": 2.8896,
3099
+ "step": 1030
3100
+ },
3101
+ {
3102
+ "epoch": 1.55,
3103
+ "learning_rate": 0.0004975684363232262,
3104
+ "loss": 2.982,
3105
+ "step": 1032
3106
+ },
3107
+ {
3108
+ "epoch": 1.55,
3109
+ "learning_rate": 0.000495947422270524,
3110
+ "loss": 2.9488,
3111
+ "step": 1034
3112
+ },
3113
+ {
3114
+ "epoch": 1.55,
3115
+ "learning_rate": 0.0004943264508152289,
3116
+ "loss": 2.9991,
3117
+ "step": 1036
3118
+ },
3119
+ {
3120
+ "epoch": 1.56,
3121
+ "learning_rate": 0.0004927055389956768,
3122
+ "loss": 2.9674,
3123
+ "step": 1038
3124
+ },
3125
+ {
3126
+ "epoch": 1.56,
3127
+ "learning_rate": 0.0004910847038495771,
3128
+ "loss": 2.9233,
3129
+ "step": 1040
3130
+ },
3131
+ {
3132
+ "epoch": 1.56,
3133
+ "learning_rate": 0.0004894639624138326,
3134
+ "loss": 2.986,
3135
+ "step": 1042
3136
+ },
3137
+ {
3138
+ "epoch": 1.57,
3139
+ "learning_rate": 0.0004878433317243621,
3140
+ "loss": 2.9251,
3141
+ "step": 1044
3142
+ },
3143
+ {
3144
+ "epoch": 1.57,
3145
+ "learning_rate": 0.0004862228288159191,
3146
+ "loss": 3.0552,
3147
+ "step": 1046
3148
+ },
3149
+ {
3150
+ "epoch": 1.57,
3151
+ "learning_rate": 0.00048460247072191494,
3152
+ "loss": 3.0084,
3153
+ "step": 1048
3154
+ },
3155
+ {
3156
+ "epoch": 1.57,
3157
+ "learning_rate": 0.0004829822744742383,
3158
+ "loss": 2.9833,
3159
+ "step": 1050
3160
+ },
3161
+ {
3162
+ "epoch": 1.58,
3163
+ "learning_rate": 0.00048136225710307694,
3164
+ "loss": 3.0209,
3165
+ "step": 1052
3166
+ },
3167
+ {
3168
+ "epoch": 1.58,
3169
+ "learning_rate": 0.00047974243563673823,
3170
+ "loss": 3.036,
3171
+ "step": 1054
3172
+ },
3173
+ {
3174
+ "epoch": 1.58,
3175
+ "learning_rate": 0.0004781228271014704,
3176
+ "loss": 2.9678,
3177
+ "step": 1056
3178
+ },
3179
+ {
3180
+ "epoch": 1.59,
3181
+ "learning_rate": 0.0004765034485212838,
3182
+ "loss": 2.9144,
3183
+ "step": 1058
3184
+ },
3185
+ {
3186
+ "epoch": 1.59,
3187
+ "learning_rate": 0.0004748843169177709,
3188
+ "loss": 3.0289,
3189
+ "step": 1060
3190
+ },
3191
+ {
3192
+ "epoch": 1.59,
3193
+ "learning_rate": 0.00047326544930992906,
3194
+ "loss": 2.9928,
3195
+ "step": 1062
3196
+ },
3197
+ {
3198
+ "epoch": 1.6,
3199
+ "learning_rate": 0.00047164686271398,
3200
+ "loss": 2.9701,
3201
+ "step": 1064
3202
+ },
3203
+ {
3204
+ "epoch": 1.6,
3205
+ "learning_rate": 0.00047002857414319235,
3206
+ "loss": 2.9335,
3207
+ "step": 1066
3208
+ },
3209
+ {
3210
+ "epoch": 1.6,
3211
+ "learning_rate": 0.00046841060060770154,
3212
+ "loss": 2.9852,
3213
+ "step": 1068
3214
+ },
3215
+ {
3216
+ "epoch": 1.6,
3217
+ "learning_rate": 0.0004667929591143321,
3218
+ "loss": 3.0117,
3219
+ "step": 1070
3220
+ },
3221
+ {
3222
+ "epoch": 1.61,
3223
+ "learning_rate": 0.0004651756666664178,
3224
+ "loss": 3.011,
3225
+ "step": 1072
3226
+ },
3227
+ {
3228
+ "epoch": 1.61,
3229
+ "learning_rate": 0.0004635587402636241,
3230
+ "loss": 2.9995,
3231
+ "step": 1074
3232
+ },
3233
+ {
3234
+ "epoch": 1.61,
3235
+ "learning_rate": 0.00046194219690176883,
3236
+ "loss": 3.027,
3237
+ "step": 1076
3238
+ },
3239
+ {
3240
+ "epoch": 1.62,
3241
+ "learning_rate": 0.0004603260535726431,
3242
+ "loss": 2.9819,
3243
+ "step": 1078
3244
+ },
3245
+ {
3246
+ "epoch": 1.62,
3247
+ "learning_rate": 0.0004587103272638339,
3248
+ "loss": 3.0649,
3249
+ "step": 1080
3250
+ },
3251
+ {
3252
+ "epoch": 1.62,
3253
+ "learning_rate": 0.0004570950349585442,
3254
+ "loss": 2.9862,
3255
+ "step": 1082
3256
+ },
3257
+ {
3258
+ "epoch": 1.63,
3259
+ "learning_rate": 0.0004554801936354157,
3260
+ "loss": 2.9984,
3261
+ "step": 1084
3262
+ },
3263
+ {
3264
+ "epoch": 1.63,
3265
+ "learning_rate": 0.00045386582026834903,
3266
+ "loss": 2.8814,
3267
+ "step": 1086
3268
+ },
3269
+ {
3270
+ "epoch": 1.63,
3271
+ "learning_rate": 0.0004522519318263267,
3272
+ "loss": 3.0595,
3273
+ "step": 1088
3274
+ },
3275
+ {
3276
+ "epoch": 1.63,
3277
+ "learning_rate": 0.00045063854527323374,
3278
+ "loss": 3.0421,
3279
+ "step": 1090
3280
+ },
3281
+ {
3282
+ "epoch": 1.64,
3283
+ "learning_rate": 0.00044902567756767973,
3284
+ "loss": 3.0161,
3285
+ "step": 1092
3286
+ },
3287
+ {
3288
+ "epoch": 1.64,
3289
+ "learning_rate": 0.00044741334566282076,
3290
+ "loss": 2.9245,
3291
+ "step": 1094
3292
+ },
3293
+ {
3294
+ "epoch": 1.64,
3295
+ "learning_rate": 0.0004458015665061807,
3296
+ "loss": 2.8993,
3297
+ "step": 1096
3298
+ },
3299
+ {
3300
+ "epoch": 1.65,
3301
+ "learning_rate": 0.0004441903570394739,
3302
+ "loss": 2.9523,
3303
+ "step": 1098
3304
+ },
3305
+ {
3306
+ "epoch": 1.65,
3307
+ "learning_rate": 0.00044257973419842576,
3308
+ "loss": 2.9986,
3309
+ "step": 1100
3310
+ },
3311
+ {
3312
+ "epoch": 1.65,
3313
+ "learning_rate": 0.0004409697149125964,
3314
+ "loss": 2.9832,
3315
+ "step": 1102
3316
+ },
3317
+ {
3318
+ "epoch": 1.66,
3319
+ "learning_rate": 0.0004393603161052012,
3320
+ "loss": 2.9493,
3321
+ "step": 1104
3322
+ },
3323
+ {
3324
+ "epoch": 1.66,
3325
+ "learning_rate": 0.0004377515546929341,
3326
+ "loss": 2.9549,
3327
+ "step": 1106
3328
+ },
3329
+ {
3330
+ "epoch": 1.66,
3331
+ "learning_rate": 0.00043614344758578907,
3332
+ "loss": 3.0335,
3333
+ "step": 1108
3334
+ },
3335
+ {
3336
+ "epoch": 1.66,
3337
+ "learning_rate": 0.0004345360116868822,
3338
+ "loss": 3.0471,
3339
+ "step": 1110
3340
+ },
3341
+ {
3342
+ "epoch": 1.67,
3343
+ "learning_rate": 0.0004329292638922752,
3344
+ "loss": 2.8954,
3345
+ "step": 1112
3346
+ },
3347
+ {
3348
+ "epoch": 1.67,
3349
+ "learning_rate": 0.0004313232210907959,
3350
+ "loss": 3.0386,
3351
+ "step": 1114
3352
+ },
3353
+ {
3354
+ "epoch": 1.67,
3355
+ "learning_rate": 0.00042971790016386286,
3356
+ "loss": 2.9591,
3357
+ "step": 1116
3358
+ },
3359
+ {
3360
+ "epoch": 1.68,
3361
+ "learning_rate": 0.00042811331798530604,
3362
+ "loss": 2.9332,
3363
+ "step": 1118
3364
+ },
3365
+ {
3366
+ "epoch": 1.68,
3367
+ "learning_rate": 0.00042650949142119117,
3368
+ "loss": 2.9526,
3369
+ "step": 1120
3370
+ },
3371
+ {
3372
+ "epoch": 1.68,
3373
+ "learning_rate": 0.0004249064373296403,
3374
+ "loss": 2.9306,
3375
+ "step": 1122
3376
+ },
3377
+ {
3378
+ "epoch": 1.69,
3379
+ "learning_rate": 0.0004233041725606572,
3380
+ "loss": 2.9224,
3381
+ "step": 1124
3382
+ },
3383
+ {
3384
+ "epoch": 1.69,
3385
+ "learning_rate": 0.0004217027139559485,
3386
+ "loss": 2.9653,
3387
+ "step": 1126
3388
+ },
3389
+ {
3390
+ "epoch": 1.69,
3391
+ "learning_rate": 0.00042010207834874643,
3392
+ "loss": 3.0481,
3393
+ "step": 1128
3394
+ },
3395
+ {
3396
+ "epoch": 1.69,
3397
+ "learning_rate": 0.00041850228256363337,
3398
+ "loss": 3.0356,
3399
+ "step": 1130
3400
+ },
3401
+ {
3402
+ "epoch": 1.7,
3403
+ "learning_rate": 0.00041690334341636364,
3404
+ "loss": 2.9638,
3405
+ "step": 1132
3406
+ },
3407
+ {
3408
+ "epoch": 1.7,
3409
+ "learning_rate": 0.00041530527771368786,
3410
+ "loss": 2.9046,
3411
+ "step": 1134
3412
+ },
3413
+ {
3414
+ "epoch": 1.7,
3415
+ "learning_rate": 0.0004137081022531748,
3416
+ "loss": 2.9511,
3417
+ "step": 1136
3418
+ },
3419
+ {
3420
+ "epoch": 1.71,
3421
+ "learning_rate": 0.0004121118338230369,
3422
+ "loss": 2.9364,
3423
+ "step": 1138
3424
+ },
3425
+ {
3426
+ "epoch": 1.71,
3427
+ "learning_rate": 0.0004105164892019514,
3428
+ "loss": 2.8809,
3429
+ "step": 1140
3430
+ },
3431
+ {
3432
+ "epoch": 1.71,
3433
+ "learning_rate": 0.00040892208515888606,
3434
+ "loss": 2.8978,
3435
+ "step": 1142
3436
+ },
3437
+ {
3438
+ "epoch": 1.72,
3439
+ "learning_rate": 0.00040732863845292203,
3440
+ "loss": 2.8875,
3441
+ "step": 1144
3442
+ },
3443
+ {
3444
+ "epoch": 1.72,
3445
+ "learning_rate": 0.00040573616583307705,
3446
+ "loss": 2.9837,
3447
+ "step": 1146
3448
+ },
3449
+ {
3450
+ "epoch": 1.72,
3451
+ "learning_rate": 0.00040414468403813093,
3452
+ "loss": 2.9693,
3453
+ "step": 1148
3454
+ },
3455
+ {
3456
+ "epoch": 1.72,
3457
+ "learning_rate": 0.00040255420979644775,
3458
+ "loss": 3.0498,
3459
+ "step": 1150
3460
+ },
3461
+ {
3462
+ "epoch": 1.73,
3463
+ "learning_rate": 0.0004009647598258022,
3464
+ "loss": 3.0096,
3465
+ "step": 1152
3466
+ },
3467
+ {
3468
+ "epoch": 1.73,
3469
+ "learning_rate": 0.00039937635083320136,
3470
+ "loss": 3.0565,
3471
+ "step": 1154
3472
+ },
3473
+ {
3474
+ "epoch": 1.73,
3475
+ "learning_rate": 0.0003977889995147114,
3476
+ "loss": 2.9779,
3477
+ "step": 1156
3478
+ },
3479
+ {
3480
+ "epoch": 1.74,
3481
+ "learning_rate": 0.00039620272255528065,
3482
+ "loss": 2.9684,
3483
+ "step": 1158
3484
+ },
3485
+ {
3486
+ "epoch": 1.74,
3487
+ "learning_rate": 0.0003946175366285647,
3488
+ "loss": 2.963,
3489
+ "step": 1160
3490
+ },
3491
+ {
3492
+ "epoch": 1.74,
3493
+ "learning_rate": 0.00039303345839675143,
3494
+ "loss": 2.9128,
3495
+ "step": 1162
3496
+ },
3497
+ {
3498
+ "epoch": 1.75,
3499
+ "learning_rate": 0.0003914505045103845,
3500
+ "loss": 2.9701,
3501
+ "step": 1164
3502
+ },
3503
+ {
3504
+ "epoch": 1.75,
3505
+ "learning_rate": 0.0003898686916081909,
3506
+ "loss": 2.9382,
3507
+ "step": 1166
3508
+ },
3509
+ {
3510
+ "epoch": 1.75,
3511
+ "learning_rate": 0.000388288036316903,
3512
+ "loss": 3.0284,
3513
+ "step": 1168
3514
+ },
3515
+ {
3516
+ "epoch": 1.75,
3517
+ "learning_rate": 0.00038670855525108647,
3518
+ "loss": 2.8692,
3519
+ "step": 1170
3520
+ },
3521
+ {
3522
+ "epoch": 1.76,
3523
+ "learning_rate": 0.0003851302650129637,
3524
+ "loss": 2.9466,
3525
+ "step": 1172
3526
+ },
3527
+ {
3528
+ "epoch": 1.76,
3529
+ "learning_rate": 0.0003835531821922405,
3530
+ "loss": 2.9944,
3531
+ "step": 1174
3532
+ },
3533
+ {
3534
+ "epoch": 1.76,
3535
+ "learning_rate": 0.0003819773233659314,
3536
+ "loss": 2.8752,
3537
+ "step": 1176
3538
+ },
3539
+ {
3540
+ "epoch": 1.77,
3541
+ "learning_rate": 0.00038040270509818444,
3542
+ "loss": 2.8898,
3543
+ "step": 1178
3544
+ },
3545
+ {
3546
+ "epoch": 1.77,
3547
+ "learning_rate": 0.00037882934394010926,
3548
+ "loss": 2.9097,
3549
+ "step": 1180
3550
+ },
3551
+ {
3552
+ "epoch": 1.77,
3553
+ "learning_rate": 0.00037725725642960046,
3554
+ "loss": 2.9032,
3555
+ "step": 1182
3556
+ },
3557
+ {
3558
+ "epoch": 1.78,
3559
+ "learning_rate": 0.00037568645909116604,
3560
+ "loss": 2.8884,
3561
+ "step": 1184
3562
+ },
3563
+ {
3564
+ "epoch": 1.78,
3565
+ "learning_rate": 0.0003741169684357522,
3566
+ "loss": 3.0071,
3567
+ "step": 1186
3568
+ },
3569
+ {
3570
+ "epoch": 1.78,
3571
+ "learning_rate": 0.00037254880096057076,
3572
+ "loss": 2.9117,
3573
+ "step": 1188
3574
+ },
3575
+ {
3576
+ "epoch": 1.78,
3577
+ "learning_rate": 0.0003709819731489249,
3578
+ "loss": 2.9778,
3579
+ "step": 1190
3580
+ },
3581
+ {
3582
+ "epoch": 1.79,
3583
+ "learning_rate": 0.0003694165014700365,
3584
+ "loss": 2.9355,
3585
+ "step": 1192
3586
+ },
3587
+ {
3588
+ "epoch": 1.79,
3589
+ "learning_rate": 0.0003678524023788735,
3590
+ "loss": 2.8895,
3591
+ "step": 1194
3592
+ },
3593
+ {
3594
+ "epoch": 1.79,
3595
+ "learning_rate": 0.0003662896923159752,
3596
+ "loss": 2.9522,
3597
+ "step": 1196
3598
+ },
3599
+ {
3600
+ "epoch": 1.8,
3601
+ "learning_rate": 0.00036472838770728146,
3602
+ "loss": 2.9402,
3603
+ "step": 1198
3604
+ },
3605
+ {
3606
+ "epoch": 1.8,
3607
+ "learning_rate": 0.0003631685049639586,
3608
+ "loss": 2.9561,
3609
+ "step": 1200
3610
+ },
3611
+ {
3612
+ "epoch": 1.8,
3613
+ "learning_rate": 0.0003616100604822279,
3614
+ "loss": 3.0087,
3615
+ "step": 1202
3616
+ },
3617
+ {
3618
+ "epoch": 1.81,
3619
+ "learning_rate": 0.00036005307064319213,
3620
+ "loss": 2.9254,
3621
+ "step": 1204
3622
+ },
3623
+ {
3624
+ "epoch": 1.81,
3625
+ "learning_rate": 0.00035849755181266473,
3626
+ "loss": 2.9669,
3627
+ "step": 1206
3628
+ },
3629
+ {
3630
+ "epoch": 1.81,
3631
+ "learning_rate": 0.0003569435203409972,
3632
+ "loss": 2.895,
3633
+ "step": 1208
3634
+ },
3635
+ {
3636
+ "epoch": 1.81,
3637
+ "learning_rate": 0.00035539099256290613,
3638
+ "loss": 2.9063,
3639
+ "step": 1210
3640
+ },
3641
+ {
3642
+ "epoch": 1.82,
3643
+ "learning_rate": 0.00035383998479730354,
3644
+ "loss": 2.8946,
3645
+ "step": 1212
3646
+ },
3647
+ {
3648
+ "epoch": 1.82,
3649
+ "learning_rate": 0.0003522905133471237,
3650
+ "loss": 2.9048,
3651
+ "step": 1214
3652
+ },
3653
+ {
3654
+ "epoch": 1.82,
3655
+ "learning_rate": 0.00035074259449915284,
3656
+ "loss": 3.0203,
3657
+ "step": 1216
3658
+ },
3659
+ {
3660
+ "epoch": 1.83,
3661
+ "learning_rate": 0.0003491962445238569,
3662
+ "loss": 2.9368,
3663
+ "step": 1218
3664
+ },
3665
+ {
3666
+ "epoch": 1.83,
3667
+ "learning_rate": 0.0003476514796752117,
3668
+ "loss": 2.9732,
3669
+ "step": 1220
3670
+ },
3671
+ {
3672
+ "epoch": 1.83,
3673
+ "learning_rate": 0.0003461083161905311,
3674
+ "loss": 2.8538,
3675
+ "step": 1222
3676
+ },
3677
+ {
3678
+ "epoch": 1.84,
3679
+ "learning_rate": 0.00034456677029029686,
3680
+ "loss": 2.9351,
3681
+ "step": 1224
3682
+ },
3683
+ {
3684
+ "epoch": 1.84,
3685
+ "learning_rate": 0.00034302685817798827,
3686
+ "loss": 2.9124,
3687
+ "step": 1226
3688
+ },
3689
+ {
3690
+ "epoch": 1.84,
3691
+ "learning_rate": 0.000341488596039911,
3692
+ "loss": 2.9584,
3693
+ "step": 1228
3694
+ },
3695
+ {
3696
+ "epoch": 1.84,
3697
+ "learning_rate": 0.00033995200004502814,
3698
+ "loss": 2.9341,
3699
+ "step": 1230
3700
+ },
3701
+ {
3702
+ "epoch": 1.85,
3703
+ "learning_rate": 0.00033841708634478894,
3704
+ "loss": 2.9363,
3705
+ "step": 1232
3706
+ },
3707
+ {
3708
+ "epoch": 1.85,
3709
+ "learning_rate": 0.00033688387107296046,
3710
+ "loss": 2.9132,
3711
+ "step": 1234
3712
+ },
3713
+ {
3714
+ "epoch": 1.85,
3715
+ "learning_rate": 0.00033535237034545675,
3716
+ "loss": 2.9063,
3717
+ "step": 1236
3718
+ },
3719
+ {
3720
+ "epoch": 1.86,
3721
+ "learning_rate": 0.00033382260026017024,
3722
+ "loss": 2.9012,
3723
+ "step": 1238
3724
+ },
3725
+ {
3726
+ "epoch": 1.86,
3727
+ "learning_rate": 0.0003322945768968021,
3728
+ "loss": 2.9846,
3729
+ "step": 1240
3730
+ },
3731
+ {
3732
+ "epoch": 1.86,
3733
+ "learning_rate": 0.0003307683163166933,
3734
+ "loss": 2.879,
3735
+ "step": 1242
3736
+ },
3737
+ {
3738
+ "epoch": 1.87,
3739
+ "learning_rate": 0.0003292438345626565,
3740
+ "loss": 2.8261,
3741
+ "step": 1244
3742
+ },
3743
+ {
3744
+ "epoch": 1.87,
3745
+ "learning_rate": 0.00032772114765880565,
3746
+ "loss": 2.9542,
3747
+ "step": 1246
3748
+ },
3749
+ {
3750
+ "epoch": 1.87,
3751
+ "learning_rate": 0.00032620027161038974,
3752
+ "loss": 2.8556,
3753
+ "step": 1248
3754
+ },
3755
+ {
3756
+ "epoch": 1.87,
3757
+ "learning_rate": 0.00032468122240362287,
3758
+ "loss": 2.8922,
3759
+ "step": 1250
3760
+ },
3761
+ {
3762
+ "epoch": 1.88,
3763
+ "learning_rate": 0.0003231640160055172,
3764
+ "loss": 2.9707,
3765
+ "step": 1252
3766
+ },
3767
+ {
3768
+ "epoch": 1.88,
3769
+ "learning_rate": 0.0003216486683637146,
3770
+ "loss": 2.9556,
3771
+ "step": 1254
3772
+ },
3773
+ {
3774
+ "epoch": 1.88,
3775
+ "learning_rate": 0.0003201351954063195,
3776
+ "loss": 3.0188,
3777
+ "step": 1256
3778
+ },
3779
+ {
3780
+ "epoch": 1.89,
3781
+ "learning_rate": 0.0003186236130417306,
3782
+ "loss": 2.8847,
3783
+ "step": 1258
3784
+ },
3785
+ {
3786
+ "epoch": 1.89,
3787
+ "learning_rate": 0.00031711393715847474,
3788
+ "loss": 2.9807,
3789
+ "step": 1260
3790
+ },
3791
+ {
3792
+ "epoch": 1.89,
3793
+ "learning_rate": 0.00031560618362503934,
3794
+ "loss": 2.9455,
3795
+ "step": 1262
3796
+ },
3797
+ {
3798
+ "epoch": 1.9,
3799
+ "learning_rate": 0.00031410036828970526,
3800
+ "loss": 2.9515,
3801
+ "step": 1264
3802
+ },
3803
+ {
3804
+ "epoch": 1.9,
3805
+ "learning_rate": 0.00031259650698038107,
3806
+ "loss": 2.9086,
3807
+ "step": 1266
3808
+ },
3809
+ {
3810
+ "epoch": 1.9,
3811
+ "learning_rate": 0.00031109461550443576,
3812
+ "loss": 2.9701,
3813
+ "step": 1268
3814
+ },
3815
+ {
3816
+ "epoch": 1.9,
3817
+ "learning_rate": 0.00030959470964853346,
3818
+ "loss": 2.8775,
3819
+ "step": 1270
3820
+ },
3821
+ {
3822
+ "epoch": 1.91,
3823
+ "learning_rate": 0.0003080968051784666,
3824
+ "loss": 2.866,
3825
+ "step": 1272
3826
+ },
3827
+ {
3828
+ "epoch": 1.91,
3829
+ "learning_rate": 0.00030660091783899114,
3830
+ "loss": 2.8923,
3831
+ "step": 1274
3832
+ },
3833
+ {
3834
+ "epoch": 1.91,
3835
+ "learning_rate": 0.00030510706335366036,
3836
+ "loss": 3.0078,
3837
+ "step": 1276
3838
+ },
3839
+ {
3840
+ "epoch": 1.92,
3841
+ "learning_rate": 0.00030361525742465974,
3842
+ "loss": 2.9717,
3843
+ "step": 1278
3844
+ },
3845
+ {
3846
+ "epoch": 1.92,
3847
+ "learning_rate": 0.00030212551573264223,
3848
+ "loss": 2.8177,
3849
+ "step": 1280
3850
+ },
3851
+ {
3852
+ "epoch": 1.92,
3853
+ "learning_rate": 0.0003006378539365631,
3854
+ "loss": 2.9766,
3855
+ "step": 1282
3856
+ },
3857
+ {
3858
+ "epoch": 1.93,
3859
+ "learning_rate": 0.0002991522876735154,
3860
+ "loss": 2.9007,
3861
+ "step": 1284
3862
+ },
3863
+ {
3864
+ "epoch": 1.93,
3865
+ "learning_rate": 0.00029766883255856545,
3866
+ "loss": 2.8992,
3867
+ "step": 1286
3868
+ },
3869
+ {
3870
+ "epoch": 1.93,
3871
+ "learning_rate": 0.00029618750418458937,
3872
+ "loss": 2.9905,
3873
+ "step": 1288
3874
+ },
3875
+ {
3876
+ "epoch": 1.93,
3877
+ "learning_rate": 0.0002947083181221084,
3878
+ "loss": 2.8838,
3879
+ "step": 1290
3880
+ },
3881
+ {
3882
+ "epoch": 1.94,
3883
+ "learning_rate": 0.0002932312899191254,
3884
+ "loss": 2.8733,
3885
+ "step": 1292
3886
+ },
3887
+ {
3888
+ "epoch": 1.94,
3889
+ "learning_rate": 0.00029175643510096194,
3890
+ "loss": 2.9842,
3891
+ "step": 1294
3892
+ },
3893
+ {
3894
+ "epoch": 1.94,
3895
+ "learning_rate": 0.0002902837691700945,
3896
+ "loss": 2.9323,
3897
+ "step": 1296
3898
+ },
3899
+ {
3900
+ "epoch": 1.95,
3901
+ "learning_rate": 0.0002888133076059919,
3902
+ "loss": 2.9108,
3903
+ "step": 1298
3904
+ },
3905
+ {
3906
+ "epoch": 1.95,
3907
+ "learning_rate": 0.000287345065864952,
3908
+ "loss": 2.8568,
3909
+ "step": 1300
3910
+ },
3911
+ {
3912
+ "epoch": 1.95,
3913
+ "learning_rate": 0.0002858790593799405,
3914
+ "loss": 2.9453,
3915
+ "step": 1302
3916
+ },
3917
+ {
3918
+ "epoch": 1.96,
3919
+ "learning_rate": 0.0002844153035604269,
3920
+ "loss": 2.9042,
3921
+ "step": 1304
3922
+ },
3923
+ {
3924
+ "epoch": 1.96,
3925
+ "learning_rate": 0.00028295381379222427,
3926
+ "loss": 2.9474,
3927
+ "step": 1306
3928
+ },
3929
+ {
3930
+ "epoch": 1.96,
3931
+ "learning_rate": 0.00028149460543732666,
3932
+ "loss": 2.8832,
3933
+ "step": 1308
3934
+ },
3935
+ {
3936
+ "epoch": 1.96,
3937
+ "learning_rate": 0.00028003769383374763,
3938
+ "loss": 2.9589,
3939
+ "step": 1310
3940
+ },
3941
+ {
3942
+ "epoch": 1.97,
3943
+ "learning_rate": 0.00027858309429535933,
3944
+ "loss": 2.8866,
3945
+ "step": 1312
3946
+ },
3947
+ {
3948
+ "epoch": 1.97,
3949
+ "learning_rate": 0.0002771308221117309,
3950
+ "loss": 2.872,
3951
+ "step": 1314
3952
+ },
3953
+ {
3954
+ "epoch": 1.97,
3955
+ "learning_rate": 0.0002756808925479689,
3956
+ "loss": 2.8409,
3957
+ "step": 1316
3958
+ },
3959
+ {
3960
+ "epoch": 1.98,
3961
+ "learning_rate": 0.00027423332084455543,
3962
+ "loss": 2.9338,
3963
+ "step": 1318
3964
+ },
3965
+ {
3966
+ "epoch": 1.98,
3967
+ "learning_rate": 0.0002727881222171892,
3968
+ "loss": 2.8641,
3969
+ "step": 1320
3970
+ },
3971
+ {
3972
+ "epoch": 1.98,
3973
+ "learning_rate": 0.00027134531185662504,
3974
+ "loss": 2.8861,
3975
+ "step": 1322
3976
+ },
3977
+ {
3978
+ "epoch": 1.99,
3979
+ "learning_rate": 0.0002699049049285141,
3980
+ "loss": 2.9867,
3981
+ "step": 1324
3982
+ },
3983
+ {
3984
+ "epoch": 1.99,
3985
+ "learning_rate": 0.00026846691657324474,
3986
+ "loss": 2.895,
3987
+ "step": 1326
3988
+ },
3989
+ {
3990
+ "epoch": 1.99,
3991
+ "learning_rate": 0.0002670313619057829,
3992
+ "loss": 2.9798,
3993
+ "step": 1328
3994
+ },
3995
+ {
3996
+ "epoch": 1.99,
3997
+ "learning_rate": 0.00026559825601551405,
3998
+ "loss": 2.9603,
3999
+ "step": 1330
4000
+ },
4001
+ {
4002
+ "epoch": 2.0,
4003
+ "learning_rate": 0.00026416761396608364,
4004
+ "loss": 2.9013,
4005
+ "step": 1332
4006
+ },
4007
+ {
4008
+ "epoch": 2.0,
4009
+ "learning_rate": 0.0002627394507952395,
4010
+ "loss": 2.9647,
4011
+ "step": 1334
4012
+ },
4013
+ {
4014
+ "epoch": 2.0,
4015
+ "learning_rate": 0.00026131378151467366,
4016
+ "loss": 2.8473,
4017
+ "step": 1336
4018
+ },
4019
+ {
4020
+ "epoch": 2.01,
4021
+ "learning_rate": 0.00025989062110986426,
4022
+ "loss": 3.0166,
4023
+ "step": 1338
4024
+ },
4025
+ {
4026
+ "epoch": 2.01,
4027
+ "learning_rate": 0.00025846998453991763,
4028
+ "loss": 3.007,
4029
+ "step": 1340
4030
+ },
4031
+ {
4032
+ "epoch": 2.01,
4033
+ "learning_rate": 0.00025705188673741256,
4034
+ "loss": 3.0197,
4035
+ "step": 1342
4036
+ },
4037
+ {
4038
+ "epoch": 2.02,
4039
+ "learning_rate": 0.00025563634260824175,
4040
+ "loss": 3.0035,
4041
+ "step": 1344
4042
+ },
4043
+ {
4044
+ "epoch": 2.02,
4045
+ "learning_rate": 0.0002542233670314558,
4046
+ "loss": 2.9123,
4047
+ "step": 1346
4048
+ },
4049
+ {
4050
+ "epoch": 2.02,
4051
+ "learning_rate": 0.0002528129748591068,
4052
+ "loss": 3.0011,
4053
+ "step": 1348
4054
+ },
4055
+ {
4056
+ "epoch": 2.02,
4057
+ "learning_rate": 0.00025140518091609255,
4058
+ "loss": 2.8378,
4059
+ "step": 1350
4060
+ }
4061
+ ],
4062
+ "logging_steps": 2,
4063
+ "max_steps": 1998,
4064
+ "num_input_tokens_seen": 0,
4065
+ "num_train_epochs": 3,
4066
+ "save_steps": 50,
4067
+ "total_flos": 4.554009249998438e+16,
4068
+ "train_batch_size": 2,
4069
+ "trial_name": null,
4070
+ "trial_params": null
4071
+ }