augustocsc
/

gpt2-10var

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1086
 ## Model description
@@ -40,137 +40,62 @@ The following hyperparameters were used during training:
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 5
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss |
 |:-------------:|:-----:|:-----:|:---------------:|
-| No log        | 0.04  | 200   | 0.2691          |
-| No log        | 0.08  | 400   | 1.5649          |
-| 0.7894        | 0.12  | 600   | 0.4091          |
-| 0.7894        | 0.16  | 800   | 0.4955          |
-| 0.7504        | 0.2   | 1000  | 0.5257          |
-| 0.7504        | 0.24  | 1200  | 0.6124          |
-| 0.7504        | 0.28  | 1400  | 0.6224          |
-| 0.7901        | 0.32  | 1600  | 0.5156          |
-| 0.7901        | 0.36  | 1800  | 0.7702          |
-| 0.7633        | 0.4   | 2000  | 0.8384          |
-| 0.7633        | 0.44  | 2200  | 0.7715          |
-| 0.7633        | 0.48  | 2400  | 0.8305          |
-| 0.829         | 0.52  | 2600  | 0.8086          |
-| 0.829         | 0.56  | 2800  | 0.9329          |
-| 0.829         | 0.6   | 3000  | 0.8684          |
-| 0.829         | 0.64  | 3200  | 0.9233          |
-| 0.829         | 0.67  | 3400  | 0.8545          |
-| 0.9221        | 0.71  | 3600  | 0.9147          |
-| 0.9221        | 0.75  | 3800  | 0.8904          |
-| 0.9301        | 0.79  | 4000  | 0.7672          |
-| 0.9301        | 0.83  | 4200  | 0.9532          |
-| 0.9301        | 0.87  | 4400  | 0.2594          |
-| 1.5584        | 0.91  | 4600  | 0.1339          |
-| 1.5584        | 0.95  | 4800  | 0.1273          |
-| 0.135         | 0.99  | 5000  | 0.1184          |
-| 0.135         | 1.03  | 5200  | 0.1163          |
-| 0.135         | 1.07  | 5400  | 0.1157          |
-| 0.1189        | 1.11  | 5600  | 0.1144          |
-| 0.1189        | 1.15  | 5800  | 0.1136          |
-| 0.1162        | 1.19  | 6000  | 0.1134          |
-| 0.1162        | 1.23  | 6200  | 0.1130          |
-| 0.1162        | 1.27  | 6400  | 0.1131          |
-| 0.1165        | 1.31  | 6600  | 0.1123          |
-| 0.1165        | 1.35  | 6800  | 0.1120          |
-| 0.1136        | 1.39  | 7000  | 0.1116          |
-| 0.1136        | 1.43  | 7200  | 0.1115          |
-| 0.1136        | 1.47  | 7400  | 0.1111          |
-| 0.1124        | 1.51  | 7600  | 0.1108          |
-| 0.1124        | 1.55  | 7800  | 0.1110          |
-| 0.1128        | 1.59  | 8000  | 0.1107          |
-| 0.1128        | 1.63  | 8200  | 0.1104          |
-| 0.1128        | 1.67  | 8400  | 0.1101          |
-| 0.1114        | 1.71  | 8600  | 0.1103          |
-| 0.1114        | 1.75  | 8800  | 0.1098          |
-| 0.1094        | 1.79  | 9000  | 0.1101          |
-| 0.1094        | 1.83  | 9200  | 0.1098          |
-| 0.1094        | 1.87  | 9400  | 0.1098          |
-| 0.111         | 1.91  | 9600  | 0.1106          |
-| 0.111         | 1.94  | 9800  | 0.1100          |
-| 0.1118        | 1.98  | 10000 | 0.1096          |
-| 0.1118        | 2.02  | 10200 | 0.1096          |
-| 0.1118        | 2.06  | 10400 | 0.1096          |
-| 0.1102        | 2.1   | 10600 | 0.1094          |
-| 0.1102        | 2.14  | 10800 | 0.1098          |
-| 0.1083        | 2.18  | 11000 | 0.1093          |
-| 0.1083        | 2.22  | 11200 | 0.1092          |
-| 0.1083        | 2.26  | 11400 | 0.1093          |
-| 0.1113        | 2.3   | 11600 | 0.1092          |
-| 0.1113        | 2.34  | 11800 | 0.1092          |
-| 0.1102        | 2.38  | 12000 | 0.1095          |
-| 0.1102        | 2.42  | 12200 | 0.1091          |
-| 0.1102        | 2.46  | 12400 | 0.1095          |
-| 0.1093        | 2.5   | 12600 | 0.1091          |
-| 0.1093        | 2.54  | 12800 | 0.1092          |
-| 0.1105        | 2.58  | 13000 | 0.1091          |
-| 0.1105        | 2.62  | 13200 | 0.1092          |
-| 0.1105        | 2.66  | 13400 | 0.1091          |
-| 0.1094        | 2.7   | 13600 | 0.1090          |
-| 0.1094        | 2.74  | 13800 | 0.1089          |
-| 0.1104        | 2.78  | 14000 | 0.1091          |
-| 0.1104        | 2.82  | 14200 | 0.1090          |
-| 0.1104        | 2.86  | 14400 | 0.1090          |
-| 0.1117        | 2.9   | 14600 | 0.1090          |
-| 0.1117        | 2.94  | 14800 | 0.1093          |
-| 0.1093        | 2.98  | 15000 | 0.1090          |
-| 0.1093        | 3.02  | 15200 | 0.1089          |
-| 0.1093        | 3.06  | 15400 | 0.1088          |
-| 0.1098        | 3.1   | 15600 | 0.1089          |
-| 0.1098        | 3.14  | 15800 | 0.1089          |
-| 0.1102        | 3.18  | 16000 | 0.1088          |
-| 0.1102        | 3.21  | 16200 | 0.1088          |
-| 0.1102        | 3.25  | 16400 | 0.1088          |
-| 0.1087        | 3.29  | 16600 | 0.1088          |
-| 0.1087        | 3.33  | 16800 | 0.1089          |
-| 0.1082        | 3.37  | 17000 | 0.1089          |
-| 0.1082        | 3.41  | 17200 | 0.1088          |
-| 0.1082        | 3.45  | 17400 | 0.1088          |
-| 0.1097        | 3.49  | 17600 | 0.1090          |
-| 0.1097        | 3.53  | 17800 | 0.1088          |
-| 0.1105        | 3.57  | 18000 | 0.1087          |
-| 0.1105        | 3.61  | 18200 | 0.1088          |
-| 0.1105        | 3.65  | 18400 | 0.1087          |
-| 0.1089        | 3.69  | 18600 | 0.1087          |
-| 0.1089        | 3.73  | 18800 | 0.1088          |
-| 0.1101        | 3.77  | 19000 | 0.1087          |
-| 0.1101        | 3.81  | 19200 | 0.1087          |
-| 0.1101        | 3.85  | 19400 | 0.1087          |
-| 0.1095        | 3.89  | 19600 | 0.1087          |
-| 0.1095        | 3.93  | 19800 | 0.1087          |
-| 0.1089        | 3.97  | 20000 | 0.1088          |
-| 0.1089        | 4.01  | 20200 | 0.1087          |
-| 0.1089        | 4.05  | 20400 | 0.1090          |
-| 0.1093        | 4.09  | 20600 | 0.1087          |
-| 0.1093        | 4.13  | 20800 | 0.1087          |
-| 0.1091        | 4.17  | 21000 | 0.1087          |
-| 0.1091        | 4.21  | 21200 | 0.1087          |
-| 0.1091        | 4.25  | 21400 | 0.1087          |
-| 0.11          | 4.29  | 21600 | 0.1086          |
-| 0.11          | 4.33  | 21800 | 0.1087          |
-| 0.11          | 4.37  | 22000 | 0.1088          |
-| 0.11          | 4.41  | 22200 | 0.1087          |
-| 0.11          | 4.45  | 22400 | 0.1086          |
-| 0.1094        | 4.49  | 22600 | 0.1086          |
-| 0.1094        | 4.52  | 22800 | 0.1086          |
-| 0.1086        | 4.56  | 23000 | 0.1086          |
-| 0.1086        | 4.6   | 23200 | 0.1086          |
-| 0.1086        | 4.64  | 23400 | 0.1086          |
-| 0.1087        | 4.68  | 23600 | 0.1086          |
-| 0.1087        | 4.72  | 23800 | 0.1086          |
-| 0.1105        | 4.76  | 24000 | 0.1086          |
-| 0.1105        | 4.8   | 24200 | 0.1086          |
-| 0.1105        | 4.84  | 24400 | 0.1086          |
-| 0.1092        | 4.88  | 24600 | 0.1086          |
-| 0.1092        | 4.92  | 24800 | 0.1086          |
-| 0.108         | 4.96  | 25000 | 0.1086          |
 ### Framework versions

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1102
 ## Model description
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 2
 ### Training results
 | Training Loss | Epoch | Step  | Validation Loss |
 |:-------------:|:-----:|:-----:|:---------------:|
+| No log        | 0.04  | 200   | 0.2493          |
+| No log        | 0.08  | 400   | 0.3971          |
+| 0.4919        | 0.12  | 600   | 0.6197          |
+| 0.4919        | 0.16  | 800   | 0.5482          |
+| 0.9307        | 0.2   | 1000  | 0.8619          |
+| 0.9307        | 0.24  | 1200  | 0.5619          |
+| 0.9307        | 0.28  | 1400  | 0.7757          |
+| 1.6552        | 0.32  | 1600  | 0.5050          |
+| 1.6552        | 0.36  | 1800  | 1.1518          |
+| 1.1387        | 0.4   | 2000  | 1.0939          |
+| 1.1387        | 0.44  | 2200  | 9.2829          |
+| 1.1387        | 0.48  | 2400  | 0.2714          |
+| 8.5966        | 0.52  | 2600  | 0.1263          |
+| 8.5966        | 0.56  | 2800  | 0.1191          |
+| 0.1233        | 0.6   | 3000  | 0.1161          |
+| 0.1233        | 0.64  | 3200  | 0.1150          |
+| 0.1233        | 0.67  | 3400  | 0.1145          |
+| 0.1166        | 0.71  | 3600  | 0.1138          |
+| 0.1166        | 0.75  | 3800  | 0.1135          |
+| 0.1151        | 0.79  | 4000  | 0.1132          |
+| 0.1151        | 0.83  | 4200  | 0.1130          |
+| 0.1151        | 0.87  | 4400  | 0.1125          |
+| 0.1131        | 0.91  | 4600  | 0.1122          |
+| 0.1131        | 0.95  | 4800  | 0.1119          |
+| 0.1132        | 0.99  | 5000  | 0.1116          |
+| 0.1132        | 1.03  | 5200  | 0.1115          |
+| 0.1132        | 1.07  | 5400  | 0.1115          |
+| 0.1123        | 1.11  | 5600  | 0.1112          |
+| 0.1123        | 1.15  | 5800  | 0.1111          |
+| 0.1116        | 1.19  | 6000  | 0.1110          |
+| 0.1116        | 1.23  | 6200  | 0.1110          |
+| 0.1116        | 1.27  | 6400  | 0.1108          |
+| 0.1132        | 1.31  | 6600  | 0.1107          |
+| 0.1132        | 1.35  | 6800  | 0.1122          |
+| 0.2039        | 1.39  | 7000  | 0.1110          |
+| 0.2039        | 1.43  | 7200  | 0.1108          |
+| 0.2039        | 1.47  | 7400  | 0.1106          |
+| 0.1107        | 1.51  | 7600  | 0.1106          |
+| 0.1107        | 1.55  | 7800  | 0.1105          |
+| 0.1115        | 1.59  | 8000  | 0.1104          |
+| 0.1115        | 1.63  | 8200  | 0.1104          |
+| 0.1115        | 1.67  | 8400  | 0.1104          |
+| 0.1106        | 1.71  | 8600  | 0.1104          |
+| 0.1106        | 1.75  | 8800  | 0.1103          |
+| 0.1092        | 1.79  | 9000  | 0.1103          |
+| 0.1092        | 1.83  | 9200  | 0.1103          |
+| 0.1092        | 1.87  | 9400  | 0.1102          |
+| 0.111         | 1.91  | 9600  | 0.1102          |
+| 0.111         | 1.94  | 9800  | 0.1102          |
+| 0.1109        | 1.98  | 10000 | 0.1102          |
 ### Framework versions

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fef899874d9a26f54345ba20a4e90494ffcc0dd889e0572fa334421094aa7d69
 size 497813341

 version https://git-lfs.github.com/spec/v1
+oid sha256:c88a2c79bdece13f87ab4897b84559656df716767994881823c1eef4ade9ce9f
 size 497813341