Edit model card

k3-Entity-Relationship-GPT2

This model is a fine-tuned version of gpt2 on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0965

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.0005
  • train_batch_size: 1024
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 10
  • total_train_batch_size: 10240
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • num_epochs: 500
  • mixed_precision_training: Native AMP

Training results

Training Loss Epoch Step Validation Loss
No log 1.0 1 9.5146
No log 2.0 2 9.1606
No log 3.0 3 8.9045
No log 4.0 4 8.7026
No log 5.0 5 8.5537
No log 6.0 6 8.4186
No log 7.0 7 8.3168
No log 8.0 8 8.2216
No log 9.0 9 8.1251
0.888 10.0 10 8.0236
0.888 11.0 11 7.9225
0.888 12.0 12 7.8303
0.888 13.0 13 7.7435
0.888 14.0 14 7.6554
0.888 15.0 15 7.5607
0.888 16.0 16 7.4767
0.888 17.0 17 7.3998
0.888 18.0 18 7.3059
0.888 19.0 19 7.2133
0.7655 20.0 20 7.1289
0.7655 21.0 21 7.0428
0.7655 22.0 22 6.9391
0.7655 23.0 23 6.8429
0.7655 24.0 24 6.7473
0.7655 25.0 25 6.6489
0.7655 26.0 26 6.5543
0.7655 27.0 27 6.4611
0.7655 28.0 28 6.3668
0.7655 29.0 29 6.2664
0.6743 30.0 30 6.1688
0.6743 31.0 31 6.0714
0.6743 32.0 32 5.9698
0.6743 33.0 33 5.8663
0.6743 34.0 34 5.7670
0.6743 35.0 35 5.6677
0.6743 36.0 36 5.5609
0.6743 37.0 37 5.4567
0.6743 38.0 38 5.3542
0.6743 39.0 39 5.2512
0.5757 40.0 40 5.1425
0.5757 41.0 41 5.0330
0.5757 42.0 42 4.9269
0.5757 43.0 43 4.8203
0.5757 44.0 44 4.7124
0.5757 45.0 45 4.6002
0.5757 46.0 46 4.4894
0.5757 47.0 47 4.3800
0.5757 48.0 48 4.2690
0.5757 49.0 49 4.1594
0.47 50.0 50 4.0509
0.47 51.0 51 3.9371
0.47 52.0 52 3.8215
0.47 53.0 53 3.7097
0.47 54.0 54 3.5985
0.47 55.0 55 3.4845
0.47 56.0 56 3.3760
0.47 57.0 57 3.2762
0.47 58.0 58 3.1647
0.47 59.0 59 3.0463
0.3592 60.0 60 2.9325
0.3592 61.0 61 2.8270
0.3592 62.0 62 2.7186
0.3592 63.0 63 2.6184
0.3592 64.0 64 2.5250
0.3592 65.0 65 2.4187
0.3592 66.0 66 2.3094
0.3592 67.0 67 2.2095
0.3592 68.0 68 2.1174
0.3592 69.0 69 2.0260
0.2519 70.0 70 1.9369
0.2519 71.0 71 1.8479
0.2519 72.0 72 1.7629
0.2519 73.0 73 1.6834
0.2519 74.0 74 1.6071
0.2519 75.0 75 1.5327
0.2519 76.0 76 1.4617
0.2519 77.0 77 1.3920
0.2519 78.0 78 1.3299
0.2519 79.0 79 1.2739
0.1623 80.0 80 1.2183
0.1623 81.0 81 1.1555
0.1623 82.0 82 1.1019
0.1623 83.0 83 1.0533
0.1623 84.0 84 1.0086
0.1623 85.0 85 0.9683
0.1623 86.0 86 0.9246
0.1623 87.0 87 0.8833
0.1623 88.0 88 0.8457
0.1623 89.0 89 0.8120
0.1031 90.0 90 0.7818
0.1031 91.0 91 0.7524
0.1031 92.0 92 0.7242
0.1031 93.0 93 0.6952
0.1031 94.0 94 0.6694
0.1031 95.0 95 0.6444
0.1031 96.0 96 0.6217
0.1031 97.0 97 0.6035
0.1031 98.0 98 0.5827
0.1031 99.0 99 0.5618
0.0689 100.0 100 0.5435
0.0689 101.0 101 0.5256
0.0689 102.0 102 0.5107
0.0689 103.0 103 0.4994
0.0689 104.0 104 0.4864
0.0689 105.0 105 0.4702
0.0689 106.0 106 0.4554
0.0689 107.0 107 0.4428
0.0689 108.0 108 0.4314
0.0689 109.0 109 0.4212
0.0501 110.0 110 0.4116
0.0501 111.0 111 0.4026
0.0501 112.0 112 0.3935
0.0501 113.0 113 0.3839
0.0501 114.0 114 0.3743
0.0501 115.0 115 0.3654
0.0501 116.0 116 0.3576
0.0501 117.0 117 0.3505
0.0501 118.0 118 0.3441
0.0501 119.0 119 0.3374
0.0388 120.0 120 0.3309
0.0388 121.0 121 0.3251
0.0388 122.0 122 0.3189
0.0388 123.0 123 0.3130
0.0388 124.0 124 0.3067
0.0388 125.0 125 0.3014
0.0388 126.0 126 0.2968
0.0388 127.0 127 0.2926
0.0388 128.0 128 0.2887
0.0388 129.0 129 0.2849
0.0319 130.0 130 0.2808
0.0319 131.0 131 0.2759
0.0319 132.0 132 0.2707
0.0319 133.0 133 0.2664
0.0319 134.0 134 0.2625
0.0319 135.0 135 0.2592
0.0319 136.0 136 0.2563
0.0319 137.0 137 0.2533
0.0319 138.0 138 0.2497
0.0319 139.0 139 0.2466
0.0274 140.0 140 0.2433
0.0274 141.0 141 0.2400
0.0274 142.0 142 0.2363
0.0274 143.0 143 0.2329
0.0274 144.0 144 0.2304
0.0274 145.0 145 0.2287
0.0274 146.0 146 0.2265
0.0274 147.0 147 0.2237
0.0274 148.0 148 0.2209
0.0274 149.0 149 0.2198
0.0242 150.0 150 0.2181
0.0242 151.0 151 0.2153
0.0242 152.0 152 0.2123
0.0242 153.0 153 0.2097
0.0242 154.0 154 0.2074
0.0242 155.0 155 0.2052
0.0242 156.0 156 0.2029
0.0242 157.0 157 0.2009
0.0242 158.0 158 0.1993
0.0242 159.0 159 0.1982
0.0218 160.0 160 0.1969
0.0218 161.0 161 0.1945
0.0218 162.0 162 0.1922
0.0218 163.0 163 0.1902
0.0218 164.0 164 0.1884
0.0218 165.0 165 0.1870
0.0218 166.0 166 0.1854
0.0218 167.0 167 0.1840
0.0218 168.0 168 0.1829
0.0218 169.0 169 0.1819
0.0198 170.0 170 0.1808
0.0198 171.0 171 0.1794
0.0198 172.0 172 0.1778
0.0198 173.0 173 0.1763
0.0198 174.0 174 0.1747
0.0198 175.0 175 0.1732
0.0198 176.0 176 0.1719
0.0198 177.0 177 0.1709
0.0198 178.0 178 0.1700
0.0198 179.0 179 0.1689
0.0184 180.0 180 0.1677
0.0184 181.0 181 0.1666
0.0184 182.0 182 0.1658
0.0184 183.0 183 0.1649
0.0184 184.0 184 0.1635
0.0184 185.0 185 0.1621
0.0184 186.0 186 0.1609
0.0184 187.0 187 0.1598
0.0184 188.0 188 0.1588
0.0184 189.0 189 0.1579
0.0168 190.0 190 0.1572
0.0168 191.0 191 0.1564
0.0168 192.0 192 0.1554
0.0168 193.0 193 0.1547
0.0168 194.0 194 0.1544
0.0168 195.0 195 0.1539
0.0168 196.0 196 0.1529
0.0168 197.0 197 0.1521
0.0168 198.0 198 0.1506
0.0168 199.0 199 0.1492
0.016 200.0 200 0.1482
0.016 201.0 201 0.1475
0.016 202.0 202 0.1470
0.016 203.0 203 0.1464
0.016 204.0 204 0.1455
0.016 205.0 205 0.1449
0.016 206.0 206 0.1445
0.016 207.0 207 0.1442
0.016 208.0 208 0.1434
0.016 209.0 209 0.1425
0.0151 210.0 210 0.1413
0.0151 211.0 211 0.1405
0.0151 212.0 212 0.1397
0.0151 213.0 213 0.1390
0.0151 214.0 214 0.1385
0.0151 215.0 215 0.1379
0.0151 216.0 216 0.1374
0.0151 217.0 217 0.1378
0.0151 218.0 218 0.1384
0.0151 219.0 219 0.1393
0.0145 220.0 220 0.1396
0.0145 221.0 221 0.1379
0.0145 222.0 222 0.1360
0.0145 223.0 223 0.1340
0.0145 224.0 224 0.1334
0.0145 225.0 225 0.1336
0.0145 226.0 226 0.1329
0.0145 227.0 227 0.1321
0.0145 228.0 228 0.1313
0.0145 229.0 229 0.1311
0.0141 230.0 230 0.1312
0.0141 231.0 231 0.1308
0.0141 232.0 232 0.1303
0.0141 233.0 233 0.1296
0.0141 234.0 234 0.1292
0.0141 235.0 235 0.1283
0.0141 236.0 236 0.1281
0.0141 237.0 237 0.1286
0.0141 238.0 238 0.1277
0.0141 239.0 239 0.1264
0.0133 240.0 240 0.1261
0.0133 241.0 241 0.1267
0.0133 242.0 242 0.1266
0.0133 243.0 243 0.1256
0.0133 244.0 244 0.1246
0.0133 245.0 245 0.1239
0.0133 246.0 246 0.1238
0.0133 247.0 247 0.1230
0.0133 248.0 248 0.1222
0.0133 249.0 249 0.1217
0.0131 250.0 250 0.1214
0.0131 251.0 251 0.1209
0.0131 252.0 252 0.1205
0.0131 253.0 253 0.1203
0.0131 254.0 254 0.1200
0.0131 255.0 255 0.1199
0.0131 256.0 256 0.1198
0.0131 257.0 257 0.1196
0.0131 258.0 258 0.1193
0.0131 259.0 259 0.1190
0.0123 260.0 260 0.1186
0.0123 261.0 261 0.1181
0.0123 262.0 262 0.1180
0.0123 263.0 263 0.1185
0.0123 264.0 264 0.1184
0.0123 265.0 265 0.1184
0.0123 266.0 266 0.1170
0.0123 267.0 267 0.1159
0.0123 268.0 268 0.1160
0.0123 269.0 269 0.1162
0.0124 270.0 270 0.1161
0.0124 271.0 271 0.1156
0.0124 272.0 272 0.1151
0.0124 273.0 273 0.1147
0.0124 274.0 274 0.1146
0.0124 275.0 275 0.1148
0.0124 276.0 276 0.1153
0.0124 277.0 277 0.1153
0.0124 278.0 278 0.1149
0.0124 279.0 279 0.1140
0.0121 280.0 280 0.1130
0.0121 281.0 281 0.1123
0.0121 282.0 282 0.1122
0.0121 283.0 283 0.1124
0.0121 284.0 284 0.1126
0.0121 285.0 285 0.1124
0.0121 286.0 286 0.1121
0.0121 287.0 287 0.1115
0.0121 288.0 288 0.1110
0.0121 289.0 289 0.1108
0.0116 290.0 290 0.1109
0.0116 291.0 291 0.1115
0.0116 292.0 292 0.1117
0.0116 293.0 293 0.1110
0.0116 294.0 294 0.1106
0.0116 295.0 295 0.1099
0.0116 296.0 296 0.1092
0.0116 297.0 297 0.1088
0.0116 298.0 298 0.1090
0.0116 299.0 299 0.1088
0.0116 300.0 300 0.1088
0.0116 301.0 301 0.1087
0.0116 302.0 302 0.1085
0.0116 303.0 303 0.1081
0.0116 304.0 304 0.1078
0.0116 305.0 305 0.1075
0.0116 306.0 306 0.1073
0.0116 307.0 307 0.1074
0.0116 308.0 308 0.1076
0.0116 309.0 309 0.1076
0.0113 310.0 310 0.1076
0.0113 311.0 311 0.1078
0.0113 312.0 312 0.1075
0.0113 313.0 313 0.1068
0.0113 314.0 314 0.1062
0.0113 315.0 315 0.1060
0.0113 316.0 316 0.1059
0.0113 317.0 317 0.1060
0.0113 318.0 318 0.1058
0.0113 319.0 319 0.1056
0.0112 320.0 320 0.1053
0.0112 321.0 321 0.1051
0.0112 322.0 322 0.1048
0.0112 323.0 323 0.1046
0.0112 324.0 324 0.1044
0.0112 325.0 325 0.1042
0.0112 326.0 326 0.1040
0.0112 327.0 327 0.1039
0.0112 328.0 328 0.1037
0.0112 329.0 329 0.1036
0.0109 330.0 330 0.1036
0.0109 331.0 331 0.1040
0.0109 332.0 332 0.1043
0.0109 333.0 333 0.1044
0.0109 334.0 334 0.1043
0.0109 335.0 335 0.1040
0.0109 336.0 336 0.1037
0.0109 337.0 337 0.1031
0.0109 338.0 338 0.1027
0.0109 339.0 339 0.1025
0.011 340.0 340 0.1024
0.011 341.0 341 0.1023
0.011 342.0 342 0.1023
0.011 343.0 343 0.1022
0.011 344.0 344 0.1021
0.011 345.0 345 0.1019
0.011 346.0 346 0.1018
0.011 347.0 347 0.1017
0.011 348.0 348 0.1017
0.011 349.0 349 0.1016
0.0104 350.0 350 0.1016
0.0104 351.0 351 0.1015
0.0104 352.0 352 0.1013
0.0104 353.0 353 0.1013
0.0104 354.0 354 0.1011
0.0104 355.0 355 0.1011
0.0104 356.0 356 0.1009
0.0104 357.0 357 0.1009
0.0104 358.0 358 0.1007
0.0104 359.0 359 0.1005
0.0105 360.0 360 0.1004
0.0105 361.0 361 0.1003
0.0105 362.0 362 0.1002
0.0105 363.0 363 0.1001
0.0105 364.0 364 0.1000
0.0105 365.0 365 0.1000
0.0105 366.0 366 0.0999
0.0105 367.0 367 0.0999
0.0105 368.0 368 0.0998
0.0105 369.0 369 0.0997
0.0107 370.0 370 0.0997
0.0107 371.0 371 0.0997
0.0107 372.0 372 0.0997
0.0107 373.0 373 0.0996
0.0107 374.0 374 0.0997
0.0107 375.0 375 0.0995
0.0107 376.0 376 0.0995
0.0107 377.0 377 0.0994
0.0107 378.0 378 0.0993
0.0107 379.0 379 0.0992
0.0104 380.0 380 0.0992
0.0104 381.0 381 0.0990
0.0104 382.0 382 0.0989
0.0104 383.0 383 0.0989
0.0104 384.0 384 0.0987
0.0104 385.0 385 0.0987
0.0104 386.0 386 0.0987
0.0104 387.0 387 0.0987
0.0104 388.0 388 0.0988
0.0104 389.0 389 0.0989
0.0102 390.0 390 0.0990
0.0102 391.0 391 0.0989
0.0102 392.0 392 0.0988
0.0102 393.0 393 0.0986
0.0102 394.0 394 0.0984
0.0102 395.0 395 0.0983
0.0102 396.0 396 0.0981
0.0102 397.0 397 0.0980
0.0102 398.0 398 0.0980
0.0102 399.0 399 0.0980
0.0102 400.0 400 0.0980
0.0102 401.0 401 0.0980
0.0102 402.0 402 0.0980
0.0102 403.0 403 0.0980
0.0102 404.0 404 0.0979
0.0102 405.0 405 0.0978
0.0102 406.0 406 0.0978
0.0102 407.0 407 0.0977
0.0102 408.0 408 0.0976
0.0102 409.0 409 0.0976
0.0103 410.0 410 0.0976
0.0103 411.0 411 0.0975
0.0103 412.0 412 0.0975
0.0103 413.0 413 0.0974
0.0103 414.0 414 0.0974
0.0103 415.0 415 0.0974
0.0103 416.0 416 0.0974
0.0103 417.0 417 0.0973
0.0103 418.0 418 0.0973
0.0103 419.0 419 0.0972
0.0101 420.0 420 0.0972
0.0101 421.0 421 0.0972
0.0101 422.0 422 0.0972
0.0101 423.0 423 0.0972
0.0101 424.0 424 0.0971
0.0101 425.0 425 0.0971
0.0101 426.0 426 0.0971
0.0101 427.0 427 0.0971
0.0101 428.0 428 0.0971
0.0101 429.0 429 0.0971
0.0104 430.0 430 0.0971
0.0104 431.0 431 0.0971
0.0104 432.0 432 0.0970
0.0104 433.0 433 0.0970
0.0104 434.0 434 0.0970
0.0104 435.0 435 0.0970
0.0104 436.0 436 0.0970
0.0104 437.0 437 0.0969
0.0104 438.0 438 0.0969
0.0104 439.0 439 0.0968
0.0101 440.0 440 0.0968
0.0101 441.0 441 0.0968
0.0101 442.0 442 0.0968
0.0101 443.0 443 0.0967
0.0101 444.0 444 0.0967
0.0101 445.0 445 0.0967
0.0101 446.0 446 0.0967
0.0101 447.0 447 0.0966
0.0101 448.0 448 0.0966
0.0101 449.0 449 0.0966
0.0101 450.0 450 0.0966
0.0101 451.0 451 0.0966
0.0101 452.0 452 0.0966
0.0101 453.0 453 0.0966
0.0101 454.0 454 0.0966
0.0101 455.0 455 0.0966
0.0101 456.0 456 0.0966
0.0101 457.0 457 0.0966
0.0101 458.0 458 0.0966
0.0101 459.0 459 0.0966
0.0102 460.0 460 0.0966
0.0102 461.0 461 0.0966
0.0102 462.0 462 0.0966
0.0102 463.0 463 0.0966
0.0102 464.0 464 0.0966
0.0102 465.0 465 0.0966
0.0102 466.0 466 0.0965
0.0102 467.0 467 0.0965
0.0102 468.0 468 0.0965
0.0102 469.0 469 0.0966
0.01 470.0 470 0.0965
0.01 471.0 471 0.0966
0.01 472.0 472 0.0965
0.01 473.0 473 0.0965
0.01 474.0 474 0.0965
0.01 475.0 475 0.0965
0.01 476.0 476 0.0965
0.01 477.0 477 0.0965
0.01 478.0 478 0.0965
0.01 479.0 479 0.0965
0.01 480.0 480 0.0965
0.01 481.0 481 0.0965
0.01 482.0 482 0.0965
0.01 483.0 483 0.0965
0.01 484.0 484 0.0965
0.01 485.0 485 0.0965
0.01 486.0 486 0.0965
0.01 487.0 487 0.0965
0.01 488.0 488 0.0965
0.01 489.0 489 0.0965
0.0102 490.0 490 0.0965
0.0102 491.0 491 0.0965
0.0102 492.0 492 0.0965
0.0102 493.0 493 0.0965
0.0102 494.0 494 0.0965
0.0102 495.0 495 0.0965
0.0102 496.0 496 0.0965
0.0102 497.0 497 0.0965
0.0102 498.0 498 0.0965
0.0102 499.0 499 0.0965
0.0101 500.0 500 0.0965

Framework versions

  • Transformers 4.41.2
  • Pytorch 2.3.0+cu121
  • Datasets 2.20.0
  • Tokenizers 0.19.1
Downloads last month
1
Safetensors
Model size
6.42M params
Tensor type
F32
·

Finetuned from