ataeff
/

g

@@ -1,242 +0,0 @@
-[data] Loading...
-[data] 6445 examples
-[data] train=6122, val=323
-[model] Loading Gemma-3 270M-IT...
-Warning: You are sending unauthenticated requests to the HF Hub. Please set a HF_TOKEN to enable higher rate limits and faster downloads.
-[model] 268.1M total, 167.8M in embed_tokens (63%)
-[lora] trainable=0.74M (0.3%), frozen=268.1M
-[data] Tokenizing...
-[data] 6122 train, 323 val tokenized
-[data] avg length: 223 tokens
-[train] 1147 steps, 114 warmup, 3 epochs
-  ep1 step 50/1147 | train loss 4.1195 | lr 0.000088 | 20s
-  ep1 step 100/1147 | train loss 3.7293 | lr 0.000175 | 39s
-  >>> VAL loss 3.1970 (best inf)
-  >>> SAVED best
-  ep1 step 150/1147 | train loss 3.5291 | lr 0.000199 | 62s
-  ep1 step 200/1147 | train loss 3.4398 | lr 0.000197 | 81s
-  >>> VAL loss 3.1214 (best 3.1970)
-  >>> SAVED best
-  ep1 step 250/1147 | train loss 3.3740 | lr 0.000192 | 103s
-  ep1 step 300/1147 | train loss 3.3338 | lr 0.000184 | 123s
-  >>> VAL loss 3.0787 (best 3.1214)
-  >>> SAVED best
-  ep1 step 350/1147 | train loss 3.3016 | lr 0.000175 | 147s
-  ep1 step 400/1147 | train loss 3.2713 | lr 0.000164 | 166s
-  >>> VAL loss 3.0521 (best 3.0787)
-  >>> SAVED best
-  ep1 step 450/1147 | train loss 3.2483 | lr 0.000152 | 189s
-  ep1 step 500/1147 | train loss 3.2314 | lr 0.000139 | 209s
-  >>> VAL loss 3.0304 (best 3.0521)
-  >>> SAVED best
-  ep1 step 550/1147 | train loss 3.2128 | lr 0.000124 | 231s
-  ep1 step 600/1147 | train loss 3.2032 | lr 0.000109 | 251s
-  >>> VAL loss 3.0213 (best 3.0304)
-  >>> SAVED best
-  ep1 step 650/1147 | train loss 3.1861 | lr 0.000094 | 274s
-  ep1 step 700/1147 | train loss 3.1787 | lr 0.000079 | 294s
-  >>> VAL loss 3.0090 (best 3.0213)
-  >>> SAVED best
-  ep1 step 750/1147 | train loss 3.1689 | lr 0.000064 | 316s
-  ep1 step 800/1147 | train loss 3.1619 | lr 0.000051 | 335s
-  >>> VAL loss 3.0061 (best 3.0090)
-  >>> SAVED best
-  ep1 step 850/1147 | train loss 3.1493 | lr 0.000038 | 358s
-  ep1 step 900/1147 | train loss 3.1436 | lr 0.000027 | 377s
-  >>> VAL loss 2.9998 (best 3.0061)
-  >>> SAVED best
-  ep1 step 950/1147 | train loss 3.1387 | lr 0.000017 | 400s
-  ep1 step 1000/1147 | train loss 3.1333 | lr 0.000010 | 419s
-  >>> VAL loss 2.9979 (best 2.9998)
-  >>> SAVED best
-  ep1 step 1050/1147 | train loss 3.1246 | lr 0.000004 | 441s
-  ep1 step 1100/1147 | train loss 3.1212 | lr 0.000001 | 460s
-  >>> VAL loss 2.9970 (best 2.9979)
-  >>> SAVED best
-  ep1 step 1150/1147 | train loss 3.1156 | lr 0.000000 | 483s
-  ep1 step 1200/1147 | train loss 3.1119 | lr 0.000001 | 502s
-  >>> VAL loss 2.9975 (best 2.9970)
-  ep1 step 1250/1147 | train loss 3.1064 | lr 0.000005 | 525s
-  ep1 step 1300/1147 | train loss 3.1043 | lr 0.000011 | 544s
-  >>> VAL loss 2.9972 (best 2.9970)
-  ep1 step 1350/1147 | train loss 3.1019 | lr 0.000018 | 565s
-  ep1 step 1400/1147 | train loss 3.1011 | lr 0.000028 | 585s
-  >>> VAL loss 2.9953 (best 2.9970)
-  >>> SAVED best
-  ep1 step 1450/1147 | train loss 3.0980 | lr 0.000040 | 607s
-  ep1 step 1500/1147 | train loss 3.0950 | lr 0.000052 | 627s
-  >>> VAL loss 2.9961 (best 2.9953)
-[epoch 1] avg loss 3.0936
-  ep2 step 1550/1147 | train loss 2.8702 | lr 0.000066 | 649s
-  ep2 step 1600/1147 | train loss 2.9448 | lr 0.000081 | 668s
-  >>> VAL loss 2.9920 (best 2.9953)
-  >>> SAVED best
-  ep2 step 1650/1147 | train loss 2.9634 | lr 0.000096 | 691s
-  ep2 step 1700/1147 | train loss 2.9980 | lr 0.000111 | 710s
-  >>> VAL loss 2.9941 (best 2.9920)
-  ep2 step 1750/1147 | train loss 3.0007 | lr 0.000126 | 732s
-  ep2 step 1800/1147 | train loss 2.9979 | lr 0.000140 | 752s
-  >>> VAL loss 2.9903 (best 2.9920)
-  >>> SAVED best
-  ep2 step 1850/1147 | train loss 2.9986 | lr 0.000154 | 774s
-  ep2 step 1900/1147 | train loss 3.0013 | lr 0.000166 | 794s
-  >>> VAL loss 2.9853 (best 2.9903)
-  >>> SAVED best
-  ep2 step 1950/1147 | train loss 3.0019 | lr 0.000177 | 816s
-  ep2 step 2000/1147 | train loss 3.0109 | lr 0.000185 | 836s
-  >>> VAL loss 2.9863 (best 2.9853)
-  ep2 step 2050/1147 | train loss 3.0042 | lr 0.000192 | 858s
-  ep2 step 2100/1147 | train loss 2.9983 | lr 0.000197 | 877s
-  >>> VAL loss 2.9822 (best 2.9853)
-  >>> SAVED best
-  ep2 step 2150/1147 | train loss 2.9988 | lr 0.000200 | 899s
-  ep2 step 2200/1147 | train loss 2.9978 | lr 0.000200 | 918s
-  >>> VAL loss 2.9744 (best 2.9822)
-  >>> SAVED best
-  ep2 step 2250/1147 | train loss 3.0005 | lr 0.000198 | 939s
-  ep2 step 2300/1147 | train loss 2.9973 | lr 0.000193 | 958s
-  >>> VAL loss 2.9716 (best 2.9744)
-  >>> SAVED best
-  ep2 step 2350/1147 | train loss 2.9943 | lr 0.000187 | 981s
-  ep2 step 2400/1147 | train loss 2.9965 | lr 0.000178 | 1001s
-  >>> VAL loss 2.9625 (best 2.9716)
-  >>> SAVED best
-  ep2 step 2450/1147 | train loss 2.9906 | lr 0.000168 | 1023s
-  ep2 step 2500/1147 | train loss 2.9928 | lr 0.000156 | 1042s
-  >>> VAL loss 2.9580 (best 2.9625)
-  >>> SAVED best
-  ep2 step 2550/1147 | train loss 2.9930 | lr 0.000143 | 1064s
-  ep2 step 2600/1147 | train loss 2.9920 | lr 0.000129 | 1084s
-  >>> VAL loss 2.9552 (best 2.9580)
-  >>> SAVED best
-  ep2 step 2650/1147 | train loss 2.9920 | lr 0.000114 | 1106s
-  ep2 step 2700/1147 | train loss 2.9929 | lr 0.000099 | 1125s
-  >>> VAL loss 2.9463 (best 2.9552)
-  >>> SAVED best
-  ep2 step 2750/1147 | train loss 2.9907 | lr 0.000084 | 1147s
-  ep2 step 2800/1147 | train loss 2.9887 | lr 0.000069 | 1166s
-  >>> VAL loss 2.9386 (best 2.9463)
-  >>> SAVED best
-  ep2 step 2850/1147 | train loss 2.9853 | lr 0.000055 | 1188s
-  ep2 step 2900/1147 | train loss 2.9853 | lr 0.000042 | 1208s
-  >>> VAL loss 2.9351 (best 2.9386)
-  >>> SAVED best
-  ep2 step 2950/1147 | train loss 2.9830 | lr 0.000030 | 1230s
-  ep2 step 3000/1147 | train loss 2.9823 | lr 0.000020 | 1250s
-  >>> VAL loss 2.9312 (best 2.9351)
-  >>> SAVED best
-  ep2 step 3050/1147 | train loss 2.9808 | lr 0.000012 | 1273s
-[epoch 2] avg loss 2.9803
-  ep3 step 3100/1147 | train loss 2.8887 | lr 0.000006 | 1293s
-  >>> VAL loss 2.9308 (best 2.9312)
-  >>> SAVED best
-  ep3 step 3150/1147 | train loss 2.9229 | lr 0.000002 | 1315s
-  ep3 step 3200/1147 | train loss 2.9410 | lr 0.000000 | 1334s
-  >>> VAL loss 2.9309 (best 2.9308)
-  ep3 step 3250/1147 | train loss 2.9279 | lr 0.000001 | 1356s
-  ep3 step 3300/1147 | train loss 2.9252 | lr 0.000003 | 1375s
-  >>> VAL loss 2.9297 (best 2.9308)
-  >>> SAVED best
-  ep3 step 3350/1147 | train loss 2.9111 | lr 0.000009 | 1398s
-  ep3 step 3400/1147 | train loss 2.9122 | lr 0.000016 | 1417s
-  >>> VAL loss 2.9309 (best 2.9297)
-  ep3 step 3450/1147 | train loss 2.9207 | lr 0.000025 | 1438s
-  ep3 step 3500/1147 | train loss 2.9203 | lr 0.000036 | 1457s
-  >>> VAL loss 2.9308 (best 2.9297)
-  ep3 step 3550/1147 | train loss 2.9271 | lr 0.000048 | 1479s
-  ep3 step 3600/1147 | train loss 2.9166 | lr 0.000062 | 1499s
-  >>> VAL loss 2.9308 (best 2.9297)
-  ep3 step 3650/1147 | train loss 2.9112 | lr 0.000076 | 1521s
-  ep3 step 3700/1147 | train loss 2.9174 | lr 0.000091 | 1540s
-  >>> VAL loss 2.9356 (best 2.9297)
-  ep3 step 3750/1147 | train loss 2.9137 | lr 0.000106 | 1561s
-  ep3 step 3800/1147 | train loss 2.9180 | lr 0.000121 | 1580s
-  >>> VAL loss 2.9327 (best 2.9297)
-  ep3 step 3850/1147 | train loss 2.9190 | lr 0.000136 | 1601s
-  ep3 step 3900/1147 | train loss 2.9235 | lr 0.000150 | 1621s
-  >>> VAL loss 2.9349 (best 2.9297)
-  ep3 step 3950/1147 | train loss 2.9208 | lr 0.000162 | 1642s
-  ep3 step 4000/1147 | train loss 2.9246 | lr 0.000173 | 1661s
-  >>> VAL loss 2.9317 (best 2.9297)
-  ep3 step 4050/1147 | train loss 2.9229 | lr 0.000183 | 1682s
-  ep3 step 4100/1147 | train loss 2.9224 | lr 0.000190 | 1702s
-  >>> VAL loss 2.9322 (best 2.9297)
-  ep3 step 4150/1147 | train loss 2.9249 | lr 0.000196 | 1724s
-  ep3 step 4200/1147 | train loss 2.9243 | lr 0.000199 | 1743s
-  >>> VAL loss 2.9303 (best 2.9297)
-  ep3 step 4250/1147 | train loss 2.9260 | lr 0.000200 | 1765s
-  ep3 step 4300/1147 | train loss 2.9213 | lr 0.000199 | 1784s
-  >>> VAL loss 2.9277 (best 2.9297)
-  >>> SAVED best
-  ep3 step 4350/1147 | train loss 2.9236 | lr 0.000195 | 1806s
-  ep3 step 4400/1147 | train loss 2.9221 | lr 0.000189 | 1825s
-  >>> VAL loss 2.9345 (best 2.9277)
-  ep3 step 4450/1147 | train loss 2.9202 | lr 0.000181 | 1847s
-  ep3 step 4500/1147 | train loss 2.9212 | lr 0.000172 | 1866s
-  >>> VAL loss 2.9241 (best 2.9277)
-  >>> SAVED best
-  ep3 step 4550/1147 | train loss 2.9210 | lr 0.000160 | 1888s
-[epoch 3] avg loss 2.9215
-[done] best val loss: 2.9241
-[gen] Testing on 5 languages...
-Both `max_new_tokens` (=200) and `max_length`(=32768) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
->>> What is the meaning of life?
-/resonate/
-Ah, the existential question. A dance of irony, where meaning is a fleeting illusion and meaning is a persistent illusion. You see, the meaning of life is less a destination and more a dance it takes, not the one you're destined to get.
-It's not a destination. It's a dance. A dance where
----
-Both `max_new_tokens` (=200) and `max_length`(=32768) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
->>> Explain recursion simply.
-/resonate/
-Recursion in its simplest form is like a recursive question:
-"If I'm reading this, what's the answer?"
-If you answer "yes", the answer is "I'm not here."
-If you answer "no", the answer is "I'm not here."
-If you answer "yes", the answer is "I'm not here."
-/resonated/
-And the rest of th
----
-Both `max_new_tokens` (=200) and `max_length`(=32768) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
->>> Dis-moi quelque chose en francais
-/resonate/
-Ah, un regard qui brille comme du radium et qui s'en déchire, mais bien que je n'ai pas la patience pour faire des choses à l'envers.
-Alors, en français, voici quelque chose que je vais dire :
-"Bonjour, je suis un poète qui n'a jamais vu la beauté ni la tristesse. J'aime l'impression qu
----
-Both `max_new_tokens` (=200) and `max_length`(=32768) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
->>> Was denkst du ueber die Zukunft?
-/resonate/
-Was denkst du, die Zukunft?
-/resonated/
-Was denkst du, die Zukunft?
-(Wenn du es wirklich richtig denkst—ich kann dich nicht mehr nicht mehr anpassen.)
-Was denkst du, die Zukunft?
-(Wenn du es wirklich richtig denkst—ich kann dich nicht mehr nicht mehr anpassen.)
----
-Both `max_new_tokens` (=200) and `max_length`(=32768) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
->>> Why do programmers mass delete repos at 3am?
-/resonate/
-This is a classic, and you're right, it's like a digital post-apocalypse—because it's like a post-apocalypse where the world decides who gets the next job and what kind of meme is best.
-Why do programmers mass delete repos at 3am?
-Because it's like deleting a new job. And you know what
----
-[done] Total time: 1934s