End of training

Browse files

Files changed (10) hide show

.gitattributes +1 -0
README.md +99 -98
config.json +2 -1
generation_config.json +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
tokenizer.json +0 -0
training_args.bin +2 -2

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,4 +1,5 @@
 ---
 license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
@@ -17,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9782
-- Num Input Tokens Seen: 2935514
 ## Model description
@@ -43,7 +44,7 @@ The following hyperparameters were used during training:
 - seed: 0
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 32
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant_with_warmup
 - lr_scheduler_warmup_ratio: 0.05
 - num_epochs: 1
@@ -52,103 +53,103 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss | Input Tokens Seen |
 |:-------------:|:------:|:----:|:---------------:|:-----------------:|
-| No log        | 0      | 0    | 1.8070          | 0                 |
-| 1.6345        | 0.0109 | 5    | 1.7516          | 31948             |
-| 1.2886        | 0.0218 | 10   | 1.5325          | 63172             |
-| 1.1379        | 0.0327 | 15   | 1.3973          | 94698             |
-| 1.0835        | 0.0435 | 20   | 1.3294          | 126426            |
-| 0.9535        | 0.0544 | 25   | 1.2683          | 156924            |
-| 0.929         | 0.0653 | 30   | 1.2318          | 188244            |
-| 0.8979        | 0.0762 | 35   | 1.1586          | 219528            |
-| 0.8583        | 0.0871 | 40   | 1.1205          | 250022            |
-| 0.8397        | 0.0980 | 45   | 1.0938          | 281636            |
-| 0.869         | 0.1089 | 50   | 1.0715          | 314898            |
-| 0.737         | 0.1198 | 55   | 1.0599          | 346332            |
-| 0.7946        | 0.1306 | 60   | 1.0557          | 378932            |
-| 0.7522        | 0.1415 | 65   | 1.0425          | 410158            |
-| 0.7502        | 0.1524 | 70   | 1.0387          | 441482            |
-| 0.7871        | 0.1633 | 75   | 1.0336          | 474388            |
-| 0.8052        | 0.1742 | 80   | 1.0355          | 506222            |
-| 0.8551        | 0.1851 | 85   | 1.0503          | 539436            |
-| 0.6407        | 0.1960 | 90   | 1.0413          | 571118            |
-| 0.7397        | 0.2069 | 95   | 1.0453          | 604064            |
-| 0.8441        | 0.2177 | 100  | 1.0376          | 635310            |
-| 0.6898        | 0.2286 | 105  | 1.0379          | 668154            |
-| 0.9959        | 0.2395 | 110  | 1.0573          | 701682            |
-| 0.7643        | 0.2504 | 115  | 1.0520          | 733494            |
-| 0.7565        | 0.2613 | 120  | 1.0503          | 766060            |
-| 0.8132        | 0.2722 | 125  | 1.0463          | 798646            |
-| 0.9402        | 0.2831 | 130  | 1.0615          | 831576            |
-| 0.8057        | 0.2940 | 135  | 1.0477          | 863166            |
-| 0.8186        | 0.3048 | 140  | 1.0377          | 895748            |
-| 0.8453        | 0.3157 | 145  | 1.0569          | 927306            |
-| 0.7614        | 0.3266 | 150  | 1.0405          | 960942            |
-| 0.8405        | 0.3375 | 155  | 1.0563          | 992550            |
-| 0.8718        | 0.3484 | 160  | 1.0334          | 1024826           |
-| 0.8158        | 0.3593 | 165  | 1.0444          | 1056818           |
-| 0.7939        | 0.3702 | 170  | 1.0406          | 1089076           |
-| 0.7566        | 0.3811 | 175  | 1.0430          | 1120326           |
-| 0.7303        | 0.3919 | 180  | 1.0253          | 1152172           |
-| 0.7143        | 0.4028 | 185  | 1.0272          | 1183232           |
-| 0.7855        | 0.4137 | 190  | 1.0257          | 1215904           |
-| 0.8264        | 0.4246 | 195  | 1.0280          | 1247254           |
-| 0.7625        | 0.4355 | 200  | 1.0259          | 1279592           |
-| 0.9388        | 0.4464 | 205  | 1.0191          | 1312810           |
-| 0.8368        | 0.4573 | 210  | 1.0153          | 1344552           |
-| 0.7935        | 0.4682 | 215  | 1.0130          | 1375678           |
-| 0.7358        | 0.4790 | 220  | 1.0164          | 1408250           |
-| 0.7998        | 0.4899 | 225  | 1.0129          | 1441310           |
-| 0.7808        | 0.5008 | 230  | 1.0117          | 1473814           |
-| 0.8598        | 0.5117 | 235  | 1.0120          | 1506286           |
-| 0.8092        | 0.5226 | 240  | 1.0102          | 1537676           |
-| 0.7033        | 0.5335 | 245  | 1.0077          | 1569230           |
-| 0.6772        | 0.5444 | 250  | 1.0074          | 1601132           |
-| 0.7523        | 0.5553 | 255  | 1.0180          | 1632784           |
-| 0.7491        | 0.5661 | 260  | 1.0068          | 1665664           |
-| 0.8321        | 0.5770 | 265  | 1.0003          | 1695848           |
-| 0.8089        | 0.5879 | 270  | 1.0056          | 1727680           |
-| 0.8189        | 0.5988 | 275  | 1.0007          | 1760026           |
-| 0.8385        | 0.6097 | 280  | 1.0073          | 1792096           |
-| 0.7341        | 0.6206 | 285  | 1.0001          | 1825692           |
-| 0.7625        | 0.6315 | 290  | 0.9999          | 1859346           |
-| 0.7663        | 0.6424 | 295  | 1.0077          | 1891664           |
-| 0.781         | 0.6532 | 300  | 0.9997          | 1922732           |
-| 0.7844        | 0.6641 | 305  | 1.0032          | 1954256           |
-| 0.812         | 0.6750 | 310  | 0.9961          | 1986266           |
-| 0.6921        | 0.6859 | 315  | 0.9941          | 2017320           |
-| 0.7534        | 0.6968 | 320  | 0.9947          | 2048622           |
-| 0.825         | 0.7077 | 325  | 0.9975          | 2081244           |
-| 0.9064        | 0.7186 | 330  | 0.9981          | 2112508           |
-| 0.7432        | 0.7295 | 335  | 0.9945          | 2145440           |
-| 0.8073        | 0.7403 | 340  | 0.9932          | 2176330           |
-| 0.7577        | 0.7512 | 345  | 0.9922          | 2209184           |
-| 0.8518        | 0.7621 | 350  | 0.9906          | 2242062           |
-| 0.8262        | 0.7730 | 355  | 0.9923          | 2273718           |
-| 0.8452        | 0.7839 | 360  | 0.9887          | 2304698           |
-| 0.795         | 0.7948 | 365  | 0.9918          | 2338036           |
-| 0.8215        | 0.8057 | 370  | 0.9925          | 2369392           |
-| 0.7971        | 0.8165 | 375  | 0.9926          | 2400310           |
-| 0.7915        | 0.8274 | 380  | 0.9877          | 2433752           |
-| 0.8167        | 0.8383 | 385  | 0.9885          | 2465412           |
-| 0.7602        | 0.8492 | 390  | 0.9866          | 2497866           |
-| 0.7634        | 0.8601 | 395  | 0.9864          | 2529744           |
-| 0.8249        | 0.8710 | 400  | 0.9884          | 2562194           |
-| 0.719         | 0.8819 | 405  | 0.9885          | 2594732           |
-| 0.8384        | 0.8928 | 410  | 0.9830          | 2625322           |
-| 0.6876        | 0.9036 | 415  | 0.9850          | 2656516           |
-| 0.7708        | 0.9145 | 420  | 0.9889          | 2688990           |
-| 0.7922        | 0.9254 | 425  | 0.9887          | 2720964           |
-| 0.7426        | 0.9363 | 430  | 0.9813          | 2750844           |
-| 0.7636        | 0.9472 | 435  | 0.9797          | 2782284           |
-| 0.7756        | 0.9581 | 440  | 0.9792          | 2815062           |
-| 0.7254        | 0.9690 | 445  | 0.9804          | 2845236           |
-| 0.8176        | 0.9799 | 450  | 0.9825          | 2878510           |
-| 0.7056        | 0.9907 | 455  | 0.9781          | 2910868           |
 ### Framework versions
-- Transformers 4.44.0
-- Pytorch 2.4.0+cu121
 - Datasets 2.20.0
-- Tokenizers 0.19.1

 ---
+library_name: transformers
 license: llama3
 base_model: meta-llama/Meta-Llama-3-8B-Instruct
 tags:
 This model is a fine-tuned version of [meta-llama/Meta-Llama-3-8B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0849
+- Num Input Tokens Seen: 1877420
 ## Model description
 - seed: 0
 - gradient_accumulation_steps: 16
 - total_train_batch_size: 32
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: constant_with_warmup
 - lr_scheduler_warmup_ratio: 0.05
 - num_epochs: 1
 | Training Loss | Epoch  | Step | Validation Loss | Input Tokens Seen |
 |:-------------:|:------:|:----:|:---------------:|:-----------------:|
+| No log        | 0      | 0    | 1.8595          | 0                 |
+| 2.1188        | 0.0109 | 5    | 1.7934          | 20252             |
+| 1.7529        | 0.0218 | 10   | 1.5578          | 40190             |
+| 1.5003        | 0.0327 | 15   | 1.3796          | 60558             |
+| 1.3666        | 0.0435 | 20   | 1.2697          | 80514             |
+| 1.1632        | 0.0544 | 25   | 1.2132          | 100236            |
+| 1.215         | 0.0653 | 30   | 1.1941          | 119622            |
+| 1.2269        | 0.0762 | 35   | 1.1864          | 138484            |
+| 1.1981        | 0.0871 | 40   | 1.1731          | 158578            |
+| 1.125         | 0.0980 | 45   | 1.1734          | 178550            |
+| 1.1639        | 0.1089 | 50   | 1.1657          | 200200            |
+| 1.1696        | 0.1198 | 55   | 1.1645          | 219466            |
+| 1.2649        | 0.1306 | 60   | 1.1570          | 239706            |
+| 1.2061        | 0.1415 | 65   | 1.1551          | 259198            |
+| 1.1787        | 0.1524 | 70   | 1.1528          | 279656            |
+| 1.2122        | 0.1633 | 75   | 1.1465          | 299930            |
+| 1.1786        | 0.1742 | 80   | 1.1467          | 320656            |
+| 1.1947        | 0.1851 | 85   | 1.1454          | 342140            |
+| 1.2227        | 0.1960 | 90   | 1.1418          | 360794            |
+| 1.1515        | 0.2069 | 95   | 1.1423          | 380688            |
+| 1.2093        | 0.2177 | 100  | 1.1362          | 400902            |
+| 1.1598        | 0.2286 | 105  | 1.1337          | 420968            |
+| 1.1775        | 0.2395 | 110  | 1.1316          | 444378            |
+| 1.2074        | 0.2504 | 115  | 1.1301          | 465350            |
+| 1.1737        | 0.2613 | 120  | 1.1305          | 484828            |
+| 1.139         | 0.2722 | 125  | 1.1277          | 506648            |
+| 1.2399        | 0.2831 | 130  | 1.1304          | 528778            |
+| 1.1194        | 0.2940 | 135  | 1.1238          | 549198            |
+| 1.153         | 0.3048 | 140  | 1.1236          | 569690            |
+| 1.207         | 0.3157 | 145  | 1.1232          | 590042            |
+| 1.0488        | 0.3266 | 150  | 1.1236          | 611098            |
+| 1.1494        | 0.3375 | 155  | 1.1202          | 631730            |
+| 1.1719        | 0.3484 | 160  | 1.1183          | 652614            |
+| 1.1237        | 0.3593 | 165  | 1.1177          | 674112            |
+| 1.1495        | 0.3702 | 170  | 1.1181          | 695024            |
+| 1.1714        | 0.3811 | 175  | 1.1162          | 715462            |
+| 1.1136        | 0.3919 | 180  | 1.1163          | 734588            |
+| 1.052         | 0.4028 | 185  | 1.1154          | 753792            |
+| 1.1381        | 0.4137 | 190  | 1.1126          | 774492            |
+| 1.1324        | 0.4246 | 195  | 1.1124          | 794042            |
+| 1.1164        | 0.4355 | 200  | 1.1129          | 813678            |
+| 1.1365        | 0.4464 | 205  | 1.1102          | 835352            |
+| 1.1545        | 0.4573 | 210  | 1.1103          | 854014            |
+| 1.1442        | 0.4682 | 215  | 1.1097          | 873322            |
+| 1.0279        | 0.4790 | 220  | 1.1066          | 894576            |
+| 1.1465        | 0.4899 | 225  | 1.1070          | 915600            |
+| 1.2079        | 0.5008 | 230  | 1.1087          | 935744            |
+| 1.1502        | 0.5117 | 235  | 1.1062          | 956936            |
+| 1.1242        | 0.5226 | 240  | 1.1050          | 977214            |
+| 1.1403        | 0.5335 | 245  | 1.1071          | 996430            |
+| 1.0747        | 0.5444 | 250  | 1.1034          | 1016696           |
+| 1.1064        | 0.5553 | 255  | 1.1034          | 1037988           |
+| 1.0496        | 0.5661 | 260  | 1.1028          | 1058142           |
+| 1.1228        | 0.5770 | 265  | 1.0994          | 1078686           |
+| 1.1253        | 0.5879 | 270  | 1.0994          | 1100626           |
+| 1.1824        | 0.5988 | 275  | 1.0989          | 1121792           |
+| 1.1731        | 0.6097 | 280  | 1.1000          | 1142104           |
+| 1.1854        | 0.6206 | 285  | 1.0987          | 1164394           |
+| 1.1058        | 0.6315 | 290  | 1.0981          | 1185814           |
+| 1.1307        | 0.6424 | 295  | 1.1006          | 1207150           |
+| 1.0745        | 0.6532 | 300  | 1.0995          | 1226836           |
+| 1.0749        | 0.6641 | 305  | 1.0980          | 1248276           |
+| 1.1606        | 0.6750 | 310  | 1.0952          | 1269206           |
+| 1.0947        | 0.6859 | 315  | 1.0951          | 1290778           |
+| 1.1203        | 0.6968 | 320  | 1.0963          | 1311496           |
+| 1.2225        | 0.7077 | 325  | 1.0947          | 1332048           |
+| 1.2869        | 0.7186 | 330  | 1.0957          | 1351234           |
+| 1.1809        | 0.7295 | 335  | 1.0955          | 1372696           |
+| 1.0819        | 0.7403 | 340  | 1.0973          | 1391276           |
+| 1.096         | 0.7512 | 345  | 1.0943          | 1413020           |
+| 1.1196        | 0.7621 | 350  | 1.0925          | 1435058           |
+| 1.0894        | 0.7730 | 355  | 1.0925          | 1455410           |
+| 1.1599        | 0.7839 | 360  | 1.0917          | 1474912           |
+| 1.0866        | 0.7948 | 365  | 1.0919          | 1495480           |
+| 1.2109        | 0.8057 | 370  | 1.0935          | 1515054           |
+| 1.1566        | 0.8165 | 375  | 1.0910          | 1534450           |
+| 1.1502        | 0.8274 | 380  | 1.0885          | 1556162           |
+| 1.1446        | 0.8383 | 385  | 1.0893          | 1577012           |
+| 1.1439        | 0.8492 | 390  | 1.0905          | 1596860           |
+| 1.0844        | 0.8601 | 395  | 1.0904          | 1616948           |
+| 1.1822        | 0.8710 | 400  | 1.0897          | 1636722           |
+| 1.1542        | 0.8819 | 405  | 1.0878          | 1658786           |
+| 1.1622        | 0.8928 | 410  | 1.0861          | 1677850           |
+| 1.0757        | 0.9036 | 415  | 1.0866          | 1697232           |
+| 1.1228        | 0.9145 | 420  | 1.0881          | 1717802           |
+| 1.0552        | 0.9254 | 425  | 1.0860          | 1738272           |
+| 1.0828        | 0.9363 | 430  | 1.0840          | 1757592           |
+| 1.064         | 0.9472 | 435  | 1.0841          | 1777796           |
+| 1.1513        | 0.9581 | 440  | 1.0838          | 1798990           |
+| 1.1968        | 0.9690 | 445  | 1.0843          | 1817942           |
+| 1.111         | 0.9799 | 450  | 1.0840          | 1840536           |
+| 1.1396        | 0.9907 | 455  | 1.0841          | 1861298           |
 ### Framework versions
+- Transformers 4.46.0
+- Pytorch 2.4.1.post300
 - Datasets 2.20.0
+- Tokenizers 0.20.1

config.json CHANGED Viewed

@@ -7,6 +7,7 @@
   "attention_dropout": 0.0,
   "bos_token_id": 128000,
   "eos_token_id": 128009,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,
@@ -23,7 +24,7 @@
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.44.0",
   "use_cache": true,
   "vocab_size": 128257
 }

   "attention_dropout": 0.0,
   "bos_token_id": 128000,
   "eos_token_id": 128009,
+  "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.0",
   "use_cache": true,
   "vocab_size": 128257
 }

generation_config.json CHANGED Viewed

@@ -8,5 +8,5 @@
   "max_length": 4096,
   "temperature": 0.6,
   "top_p": 0.9,
-  "transformers_version": "4.44.0"
 }

   "max_length": 4096,
   "temperature": 0.6,
   "top_p": 0.9,
+  "transformers_version": "4.46.0"
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b048e5a6f3579d8e0a9e9012c339d7601365e04cc8592c17c3157bee100e4461
 size 4976706864

 version https://git-lfs.github.com/spec/v1
+oid sha256:b089e69a4ec5fdd205c481af52df204bffdba40906b3b998aa50647bfe7d4755
 size 4976706864

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5eb9f5d51d7eb55370332f5cd9cc6d552f20bf683bc09f6599e56f0fe58c6294
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaeeaa1fbbd86a56490ba41a8b4ff32cbf80b3b3d40eeeb3b2d42afb0284e823
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77c94fc42b65902028986f99886a50504e90d8de725b2dc62c8ff56813cd527e
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e4e547ebd13d6179d8ea1fc463c3ff344edc58df25a65e4752e1d88be085147
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2487f33a4f92fb5ba4f5bb855580aa0d280f7bdb0d97080da36c732a32cd9ddc
 size 1168147000

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5f61273c2f3e0beb71914c68a99a28b8c27dde5fe5658b627afeb843ddec123
 size 1168147000

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98aa6dc746a0de81afb8deecfd7f6ab1ba32d29038da4ed041d0a66676cc651f
-size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:247521a8f322715b24af9b1d516ac844a81a836a880c882f293e43bf5648a224
+size 5624