Model save

Browse files

Files changed (7) hide show

all_results.json +4 -4
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +64 -64
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.992,
     "total_flos": 0.0,
-    "train_loss": 0.11703237614804698,
-    "train_runtime": 741.0872,
     "train_samples": 1999,
-    "train_samples_per_second": 2.697,
-    "train_steps_per_second": 0.084
 }

 {
     "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.11182688801519332,
+    "train_runtime": 795.5053,
     "train_samples": 1999,
+    "train_samples_per_second": 2.513,
+    "train_steps_per_second": 0.078
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27ad26c1efb5aa41fd1bd110ee2d93f2148ffdfe1d5e372f09746ec1fdb98bab
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:17bb78f523e256503e66d9406ec868a6e723aa56c5982147498f98dab0eaac0e
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff4623531b30340c287dfa8e76147ab4a1322e6ab8b7db075e066f9ebfad74b7
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:c813513c413582518b6d3390a8c7925bda0a0df487cab3c9bd8ef8cd607fa3c0
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:917b65259f3629f7e4fe0111806e6f184ae9e604addb6954ca70748683196a5b
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:b66ccc91c76d7d1f0cd372582bfb47f501ee6d5b9963d0210015b06c0a281050
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.992,
     "total_flos": 0.0,
-    "train_loss": 0.11703237614804698,
-    "train_runtime": 741.0872,
     "train_samples": 1999,
-    "train_samples_per_second": 2.697,
-    "train_steps_per_second": 0.084
 }

 {
     "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.11182688801519332,
+    "train_runtime": 795.5053,
     "train_samples": 1999,
+    "train_samples_per_second": 2.513,
+    "train_steps_per_second": 0.078
 }

trainer_state.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "log_history": [
     {
       "epoch": 0.016,
-      "grad_norm": 368.63389421513955,
       "learning_rate": 7.142857142857142e-08,
-      "logits/generated": -2.9934349060058594,
-      "logits/real": -2.747741222381592,
-      "logps/generated": -240.1473388671875,
-      "logps/real": -93.4220199584961,
-      "loss": 0.7913,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
@@ -25,102 +25,102 @@
     },
     {
       "epoch": 0.16,
-      "grad_norm": 1.784860986873838,
       "learning_rate": 4.727272727272727e-07,
-      "logits/generated": -2.8636107444763184,
-      "logits/real": -2.1776232719421387,
-      "logps/generated": -275.1824951171875,
-      "logps/real": -95.4654769897461,
-      "loss": 0.2707,
       "rewards/accuracies": 0.8888888955116272,
-      "rewards/generated": -3.9822473526000977,
-      "rewards/margins": 5.366815090179443,
-      "rewards/real": 1.3845678567886353,
       "step": 10
     },
     {
       "epoch": 0.32,
-      "grad_norm": 1.195516804976816,
       "learning_rate": 3.818181818181818e-07,
-      "logits/generated": -3.074063777923584,
-      "logits/real": -2.132559299468994,
-      "logps/generated": -325.47174072265625,
-      "logps/real": -77.88875579833984,
-      "loss": 0.0846,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -9.100537300109863,
-      "rewards/margins": 12.047636985778809,
-      "rewards/real": 2.947101593017578,
       "step": 20
     },
     {
       "epoch": 0.48,
-      "grad_norm": 1.781989470530369,
       "learning_rate": 2.909090909090909e-07,
-      "logits/generated": -3.0295379161834717,
-      "logits/real": -2.112544536590576,
-      "logps/generated": -355.9772033691406,
-      "logps/real": -76.08865356445312,
-      "loss": 0.0782,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -11.466151237487793,
-      "rewards/margins": 14.567548751831055,
-      "rewards/real": 3.1013970375061035,
       "step": 30
     },
     {
       "epoch": 0.64,
-      "grad_norm": 0.9655945444920763,
       "learning_rate": 2e-07,
-      "logits/generated": -3.012608051300049,
-      "logits/real": -2.2118849754333496,
-      "logps/generated": -348.3521423339844,
-      "logps/real": -83.44706726074219,
-      "loss": 0.078,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -11.384729385375977,
-      "rewards/margins": 14.619766235351562,
-      "rewards/real": 3.235036849975586,
       "step": 40
     },
     {
       "epoch": 0.8,
-      "grad_norm": 1.4386865003268576,
       "learning_rate": 1.0909090909090908e-07,
-      "logits/generated": -3.0476737022399902,
-      "logits/real": -2.1677966117858887,
-      "logps/generated": -343.5052185058594,
-      "logps/real": -82.69391632080078,
-      "loss": 0.0699,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -11.07672119140625,
-      "rewards/margins": 14.31847095489502,
-      "rewards/real": 3.2417500019073486,
       "step": 50
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.917235829369125,
       "learning_rate": 1.818181818181818e-08,
-      "logits/generated": -3.0156235694885254,
-      "logits/real": -2.1144680976867676,
-      "logps/generated": -349.30865478515625,
-      "logps/real": -80.76779174804688,
-      "loss": 0.0799,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -11.362370491027832,
-      "rewards/margins": 14.571017265319824,
-      "rewards/real": 3.208648681640625,
       "step": 60
     },
     {
       "epoch": 0.992,
       "step": 62,
       "total_flos": 0.0,
-      "train_loss": 0.11703237614804698,
-      "train_runtime": 741.0872,
-      "train_samples_per_second": 2.697,
-      "train_steps_per_second": 0.084
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.016,
+      "grad_norm": 307.76555800630456,
       "learning_rate": 7.142857142857142e-08,
+      "logits/generated": -2.8404788970947266,
+      "logits/real": -2.5973095893859863,
+      "logps/generated": -199.41073608398438,
+      "logps/real": -84.76593017578125,
+      "loss": 0.7771,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.16,
+      "grad_norm": 8.428438696613153,
       "learning_rate": 4.727272727272727e-07,
+      "logits/generated": -2.9082934856414795,
+      "logits/real": -2.201085329055786,
+      "logps/generated": -260.89495849609375,
+      "logps/real": -89.60836791992188,
+      "loss": 0.2691,
       "rewards/accuracies": 0.8888888955116272,
+      "rewards/generated": -3.8854570388793945,
+      "rewards/margins": 5.224937438964844,
+      "rewards/real": 1.3394801616668701,
       "step": 10
     },
     {
       "epoch": 0.32,
+      "grad_norm": 2.6808156850513947,
       "learning_rate": 3.818181818181818e-07,
+      "logits/generated": -3.0079009532928467,
+      "logits/real": -2.238185167312622,
+      "logps/generated": -310.7685241699219,
+      "logps/real": -82.25010681152344,
+      "loss": 0.0707,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -8.675054550170898,
+      "rewards/margins": 11.541936874389648,
+      "rewards/real": 2.866882562637329,
       "step": 20
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.7630367545230997,
       "learning_rate": 2.909090909090909e-07,
+      "logits/generated": -3.0362448692321777,
+      "logits/real": -2.1702117919921875,
+      "logps/generated": -325.0323181152344,
+      "logps/real": -72.29302978515625,
+      "loss": 0.0691,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -9.070144653320312,
+      "rewards/margins": 12.167816162109375,
+      "rewards/real": 3.0976719856262207,
       "step": 30
     },
     {
       "epoch": 0.64,
+      "grad_norm": 0.8045898247287383,
       "learning_rate": 2e-07,
+      "logits/generated": -3.0557637214660645,
+      "logits/real": -2.27079176902771,
+      "logps/generated": -326.16363525390625,
+      "logps/real": -73.30236053466797,
+      "loss": 0.0736,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -10.190264701843262,
+      "rewards/margins": 13.376245498657227,
+      "rewards/real": 3.1859793663024902,
       "step": 40
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.9553834700952871,
       "learning_rate": 1.0909090909090908e-07,
+      "logits/generated": -3.051811933517456,
+      "logits/real": -2.1524760723114014,
+      "logps/generated": -327.13031005859375,
+      "logps/real": -71.540771484375,
+      "loss": 0.0724,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -10.402329444885254,
+      "rewards/margins": 13.604934692382812,
+      "rewards/real": 3.2026054859161377,
       "step": 50
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.8111910021687768,
       "learning_rate": 1.818181818181818e-08,
+      "logits/generated": -3.0647284984588623,
+      "logits/real": -2.1906068325042725,
+      "logps/generated": -329.8739318847656,
+      "logps/real": -82.74003601074219,
+      "loss": 0.0694,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -10.355340003967285,
+      "rewards/margins": 13.413922309875488,
+      "rewards/real": 3.0585832595825195,
       "step": 60
     },
     {
       "epoch": 0.992,
       "step": 62,
       "total_flos": 0.0,
+      "train_loss": 0.11182688801519332,
+      "train_runtime": 795.5053,
+      "train_samples_per_second": 2.513,
+      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:720e65b94fb282070a9aabfc803406247c348110037241f525a514b206d6c728
 size 6456

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d139b04268630391e83d2f548af45201d344d1e3e0f51da37d4d9a7e0af539e
 size 6456