Severian commited on
Commit
6a79f6e
1 Parent(s): 77e713b

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +447 -329
README.md CHANGED
@@ -8,336 +8,454 @@ pipeline_tag: text-generation
8
 
9
  ```
10
  ==((====))== Unsloth - 2x faster free finetuning | Num GPUs = 1
11
- \\ /| Num examples = 2,614 | Num Epochs = 2
12
  O^O/ \_/ \ Batch size per device = 4 | Gradient Accumulation steps = 4
13
- \ / Total batch size = 16 | Total steps = 326
14
  "-____-" Number of trainable parameters = 83,886,080
15
- [326/326 09:13, Epoch 1/2]
16
  Step Training Loss
17
- 1 3.122400
18
- 2 3.146700
19
- 3 3.077300
20
- 4 3.072800
21
- 5 3.052400
22
- 6 3.032800
23
- 7 3.040000
24
- 8 3.078500
25
- 9 3.054300
26
- 10 3.031500
27
- 11 3.022800
28
- 12 3.030600
29
- 13 3.034800
30
- 14 3.023000
31
- 15 3.010300
32
- 16 3.066700
33
- 17 3.009200
34
- 18 2.950200
35
- 19 2.972900
36
- 20 2.975500
37
- 21 2.975900
38
- 22 2.933600
39
- 23 2.949500
40
- 24 3.000900
41
- 25 2.878700
42
- 26 2.950200
43
- 27 2.893500
44
- 28 2.875300
45
- 29 2.976100
46
- 30 2.869200
47
- 31 2.911700
48
- 32 2.795500
49
- 33 2.799400
50
- 34 2.849400
51
- 35 2.809000
52
- 36 2.795200
53
- 37 2.805400
54
- 38 2.787700
55
- 39 2.749900
56
- 40 2.735900
57
- 41 2.829800
58
- 42 2.774600
59
- 43 2.716500
60
- 44 2.803900
61
- 45 2.657600
62
- 46 2.701500
63
- 47 2.638200
64
- 48 2.788100
65
- 49 2.600000
66
- 50 2.599400
67
- 51 2.564500
68
- 52 2.587100
69
- 53 2.541100
70
- 54 2.541300
71
- 55 2.565700
72
- 56 2.584000
73
- 57 2.583400
74
- 58 2.622200
75
- 59 2.484100
76
- 60 2.414400
77
- 61 2.435400
78
- 62 2.417200
79
- 63 2.519300
80
- 64 2.527100
81
- 65 2.419200
82
- 66 2.393400
83
- 67 2.350400
84
- 68 2.463400
85
- 69 2.427600
86
- 70 2.287600
87
- 71 2.290400
88
- 72 2.313200
89
- 73 2.252300
90
- 74 2.275400
91
- 75 2.251900
92
- 76 2.325800
93
- 77 2.174600
94
- 78 2.158100
95
- 79 2.215200
96
- 80 2.094500
97
- 81 2.239300
98
- 82 2.163100
99
- 83 2.239600
100
- 84 2.058000
101
- 85 2.099200
102
- 86 2.063500
103
- 87 2.042700
104
- 88 1.981600
105
- 89 2.005200
106
- 90 2.009200
107
- 91 1.971600
108
- 92 1.989700
109
- 93 1.957000
110
- 94 1.871600
111
- 95 1.928000
112
- 96 1.931000
113
- 97 1.812400
114
- 98 1.867900
115
- 99 1.745100
116
- 100 1.864200
117
- 101 1.708200
118
- 102 1.903700
119
- 103 1.789400
120
- 104 1.760100
121
- 105 1.636100
122
- 106 1.826100
123
- 107 1.816700
124
- 108 1.753400
125
- 109 1.760800
126
- 110 1.720400
127
- 111 1.511300
128
- 112 1.614200
129
- 113 1.632700
130
- 114 1.480100
131
- 115 1.548600
132
- 116 1.623400
133
- 117 1.629900
134
- 118 1.435100
135
- 119 1.460700
136
- 120 1.482000
137
- 121 1.305400
138
- 122 1.231600
139
- 123 1.581200
140
- 124 1.193100
141
- 125 1.216200
142
- 126 1.293600
143
- 127 1.158300
144
- 128 1.211200
145
- 129 1.184000
146
- 130 1.116600
147
- 131 1.146400
148
- 132 1.255100
149
- 133 1.085800
150
- 134 0.993300
151
- 135 1.134800
152
- 136 1.293100
153
- 137 1.377800
154
- 138 0.779900
155
- 139 0.889400
156
- 140 0.849800
157
- 141 1.080100
158
- 142 0.969100
159
- 143 1.034000
160
- 144 0.868000
161
- 145 0.727900
162
- 146 0.688100
163
- 147 0.870200
164
- 148 0.782700
165
- 149 0.672200
166
- 150 0.690100
167
- 151 0.665900
168
- 152 0.694800
169
- 153 0.642100
170
- 154 0.435800
171
- 155 0.575800
172
- 156 0.678400
173
- 157 0.540300
174
- 158 0.550200
175
- 159 0.652300
176
- 160 0.397500
177
- 161 0.839400
178
- 162 0.480400
179
- 163 0.533200
180
- 164 0.331800
181
- 165 0.470100
182
- 166 0.485200
183
- 167 0.350000
184
- 168 0.490200
185
- 169 0.353600
186
- 170 0.445700
187
- 171 0.461700
188
- 172 0.471700
189
- 173 0.217400
190
- 174 0.795300
191
- 175 0.276600
192
- 176 0.146400
193
- 177 0.776800
194
- 178 0.262800
195
- 179 0.276800
196
- 180 0.269000
197
- 181 0.256000
198
- 182 0.580300
199
- 183 0.223600
200
- 184 0.148800
201
- 185 0.309900
202
- 186 0.931900
203
- 187 0.177100
204
- 188 0.253300
205
- 189 0.669300
206
- 190 0.535500
207
- 191 0.180600
208
- 192 0.332300
209
- 193 0.498300
210
- 194 0.249200
211
- 195 0.532900
212
- 196 0.214900
213
- 197 0.453000
214
- 198 0.321500
215
- 199 0.230500
216
- 200 0.121200
217
- 201 0.243600
218
- 202 0.341000
219
- 203 0.303100
220
- 204 0.194500
221
- 205 0.379500
222
- 206 0.212300
223
- 207 0.728000
224
- 208 0.465900
225
- 209 0.168300
226
- 210 0.325700
227
- 211 0.083800
228
- 212 0.299700
229
- 213 0.578800
230
- 214 0.080600
231
- 215 0.181000
232
- 216 0.104500
233
- 217 0.425300
234
- 218 0.378300
235
- 219 0.150900
236
- 220 0.186100
237
- 221 0.297500
238
- 222 0.447000
239
- 223 0.350500
240
- 224 0.203000
241
- 225 0.154800
242
- 226 0.195300
243
- 227 0.036700
244
- 228 0.160900
245
- 229 0.330500
246
- 230 0.574200
247
- 231 0.526900
248
- 232 0.274500
249
- 233 0.388700
250
- 234 0.212200
251
- 235 0.251600
252
- 236 0.150400
253
- 237 0.460500
254
- 238 0.107800
255
- 239 0.097400
256
- 240 0.136000
257
- 241 0.390400
258
- 242 0.279900
259
- 243 0.507000
260
- 244 0.472500
261
- 245 0.354900
262
- 246 0.333400
263
- 247 0.305500
264
- 248 0.254900
265
- 249 0.251000
266
- 250 0.469400
267
- 251 0.364700
268
- 252 0.185600
269
- 253 0.150500
270
- 254 0.354000
271
- 255 0.133900
272
- 256 0.093200
273
- 257 0.297700
274
- 258 0.180200
275
- 259 0.216000
276
- 260 0.113900
277
- 261 0.283700
278
- 262 0.134100
279
- 263 0.033800
280
- 264 0.358600
281
- 265 0.453800
282
- 266 0.326100
283
- 267 0.166000
284
- 268 0.371600
285
- 269 0.129800
286
- 270 0.173600
287
- 271 0.161700
288
- 272 0.052800
289
- 273 0.140600
290
- 274 0.052200
291
- 275 0.392400
292
- 276 0.103700
293
- 277 0.206600
294
- 278 0.077600
295
- 279 0.267900
296
- 280 0.425900
297
- 281 0.033300
298
- 282 0.262400
299
- 283 0.163300
300
- 284 0.317800
301
- 285 0.394600
302
- 286 0.257400
303
- 287 0.207600
304
- 288 0.339600
305
- 289 0.309500
306
- 290 0.195000
307
- 291 0.362300
308
- 292 0.209900
309
- 293 0.278600
310
- 294 0.312100
311
- 295 0.203300
312
- 296 0.159400
313
- 297 0.108100
314
- 298 0.380800
315
- 299 0.200700
316
- 300 0.230700
317
- 301 0.333100
318
- 302 0.231800
319
- 303 0.168700
320
- 304 0.108700
321
- 305 0.093100
322
- 306 0.223000
323
- 307 0.174300
324
- 308 0.301100
325
- 309 0.317200
326
- 310 0.289300
327
- 311 0.033000
328
- 312 0.147200
329
- 313 0.211600
330
- 314 0.150000
331
- 315 0.069700
332
- 316 0.184500
333
- 317 0.041900
334
- 318 0.067700
335
- 319 0.113800
336
- 320 0.231100
337
- 321 0.139300
338
- 322 0.135500
339
- 323 0.190800
340
- 324 0.097400
341
- 325 0.087900
342
- 326 0.032600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
343
  ```
 
8
 
9
  ```
10
  ==((====))== Unsloth - 2x faster free finetuning | Num GPUs = 1
11
+ \\ /| Num examples = 3,555 | Num Epochs = 2
12
  O^O/ \_/ \ Batch size per device = 4 | Gradient Accumulation steps = 4
13
+ \ / Total batch size = 16 | Total steps = 444
14
  "-____-" Number of trainable parameters = 83,886,080
15
+ [444/444 25:17, Epoch 1/2]
16
  Step Training Loss
17
+ 1 3.133100
18
+ 2 3.086100
19
+ 3 3.045000
20
+ 4 3.075100
21
+ 5 3.086000
22
+ 6 3.042100
23
+ 7 3.018100
24
+ 8 3.036100
25
+ 9 2.986900
26
+ 10 2.990600
27
+ 11 2.949400
28
+ 12 2.933200
29
+ 13 2.899800
30
+ 14 2.885900
31
+ 15 2.928400
32
+ 16 2.855700
33
+ 17 2.805000
34
+ 18 2.787100
35
+ 19 2.807400
36
+ 20 2.765600
37
+ 21 2.794500
38
+ 22 2.758400
39
+ 23 2.753700
40
+ 24 2.757400
41
+ 25 2.669900
42
+ 26 2.653900
43
+ 27 2.708400
44
+ 28 2.705100
45
+ 29 2.695900
46
+ 30 2.590100
47
+ 31 2.615900
48
+ 32 2.577500
49
+ 33 2.571700
50
+ 34 2.596400
51
+ 35 2.570700
52
+ 36 2.558600
53
+ 37 2.524600
54
+ 38 2.640500
55
+ 39 2.506400
56
+ 40 2.521900
57
+ 41 2.519800
58
+ 42 2.459700
59
+ 43 2.388900
60
+ 44 2.425400
61
+ 45 2.387800
62
+ 46 2.360600
63
+ 47 2.376000
64
+ 48 2.391600
65
+ 49 2.321100
66
+ 50 2.357600
67
+ 51 2.325800
68
+ 52 2.311800
69
+ 53 2.255600
70
+ 54 2.313900
71
+ 55 2.200900
72
+ 56 2.250800
73
+ 57 2.242500
74
+ 58 2.173000
75
+ 59 2.261000
76
+ 60 2.150500
77
+ 61 2.162500
78
+ 62 2.086800
79
+ 63 2.178500
80
+ 64 2.085600
81
+ 65 2.068800
82
+ 66 2.146500
83
+ 67 2.001800
84
+ 68 2.037600
85
+ 69 2.009000
86
+ 70 1.983300
87
+ 71 1.931400
88
+ 72 1.990400
89
+ 73 1.944700
90
+ 74 1.972700
91
+ 75 2.002400
92
+ 76 2.022400
93
+ 77 1.900500
94
+ 78 1.843100
95
+ 79 1.887400
96
+ 80 1.970700
97
+ 81 1.820800
98
+ 82 1.853900
99
+ 83 1.744200
100
+ 84 1.831400
101
+ 85 1.768900
102
+ 86 2.006100
103
+ 87 1.681900
104
+ 88 1.750000
105
+ 89 1.628100
106
+ 90 1.586900
107
+ 91 1.567900
108
+ 92 1.554500
109
+ 93 1.830800
110
+ 94 1.512500
111
+ 95 1.592400
112
+ 96 1.518600
113
+ 97 1.593700
114
+ 98 1.454100
115
+ 99 1.497200
116
+ 100 1.319700
117
+ 101 1.363300
118
+ 102 1.414300
119
+ 103 1.343900
120
+ 104 1.363500
121
+ 105 1.449000
122
+ 106 1.510100
123
+ 107 1.268600
124
+ 108 1.156600
125
+ 109 1.075100
126
+ 110 1.137200
127
+ 111 1.020700
128
+ 112 0.993600
129
+ 113 1.195200
130
+ 114 0.993300
131
+ 115 1.072100
132
+ 116 1.116900
133
+ 117 1.184100
134
+ 118 1.102600
135
+ 119 1.083800
136
+ 120 0.852100
137
+ 121 1.023600
138
+ 122 1.051200
139
+ 123 1.270500
140
+ 124 0.856200
141
+ 125 1.089500
142
+ 126 0.686800
143
+ 127 0.800300
144
+ 128 0.662400
145
+ 129 0.688000
146
+ 130 0.554400
147
+ 131 0.737200
148
+ 132 0.802900
149
+ 133 0.538200
150
+ 134 0.562000
151
+ 135 0.516800
152
+ 136 0.497200
153
+ 137 0.611100
154
+ 138 0.581200
155
+ 139 0.442000
156
+ 140 0.355200
157
+ 141 0.473200
158
+ 142 0.559600
159
+ 143 0.683700
160
+ 144 0.355300
161
+ 145 0.343000
162
+ 146 0.525300
163
+ 147 0.442100
164
+ 148 0.452900
165
+ 149 0.478800
166
+ 150 0.311300
167
+ 151 0.535500
168
+ 152 0.552600
169
+ 153 0.252800
170
+ 154 0.479200
171
+ 155 0.539500
172
+ 156 0.477200
173
+ 157 0.283000
174
+ 158 0.265100
175
+ 159 0.352000
176
+ 160 0.268500
177
+ 161 0.711900
178
+ 162 0.411300
179
+ 163 0.377100
180
+ 164 0.360500
181
+ 165 0.311000
182
+ 166 0.490800
183
+ 167 0.269300
184
+ 168 0.409600
185
+ 169 0.147800
186
+ 170 0.144600
187
+ 171 0.223600
188
+ 172 0.615300
189
+ 173 0.218900
190
+ 174 0.136400
191
+ 175 0.133200
192
+ 176 0.263200
193
+ 177 0.363600
194
+ 178 0.127700
195
+ 179 0.238900
196
+ 180 0.276200
197
+ 181 0.306400
198
+ 182 0.122000
199
+ 183 0.302400
200
+ 184 0.049500
201
+ 185 0.406500
202
+ 186 0.246400
203
+ 187 0.429900
204
+ 188 0.216900
205
+ 189 0.320700
206
+ 190 0.472800
207
+ 191 0.159900
208
+ 192 0.287500
209
+ 193 0.334400
210
+ 194 0.136100
211
+ 195 0.233400
212
+ 196 0.164100
213
+ 197 0.196100
214
+ 198 0.153300
215
+ 199 0.251000
216
+ 200 0.087500
217
+ 201 0.083000
218
+ 202 0.104900
219
+ 203 0.157700
220
+ 204 0.080300
221
+ 205 0.280500
222
+ 206 0.372100
223
+ 207 0.150400
224
+ 208 0.112900
225
+ 209 0.265400
226
+ 210 0.075800
227
+ 211 0.082700
228
+ 212 0.343000
229
+ 213 0.081900
230
+ 214 0.360400
231
+ 215 0.261200
232
+ 216 0.072000
233
+ 217 0.249400
234
+ 218 0.211600
235
+ 219 0.304500
236
+ 220 0.289300
237
+ 221 0.209400
238
+ 222 0.067800
239
+ 223 0.144500
240
+ 224 0.078600
241
+ 225 0.143500
242
+ 226 0.377800
243
+ 227 0.222300
244
+ 228 0.279800
245
+ 229 0.063400
246
+ 230 0.120400
247
+ 231 0.214000
248
+ 232 0.121600
249
+ 233 0.360400
250
+ 234 0.168600
251
+ 235 0.206300
252
+ 236 0.075800
253
+ 237 0.033800
254
+ 238 0.059700
255
+ 239 0.227500
256
+ 240 0.212800
257
+ 241 0.186600
258
+ 242 0.223400
259
+ 243 0.033600
260
+ 244 0.204600
261
+ 245 0.033600
262
+ 246 0.600600
263
+ 247 0.105800
264
+ 248 0.198400
265
+ 249 0.255100
266
+ 250 0.226500
267
+ 251 0.104700
268
+ 252 0.128700
269
+ 253 0.088300
270
+ 254 0.158600
271
+ 255 0.033200
272
+ 256 0.261900
273
+ 257 0.320500
274
+ 258 0.140100
275
+ 259 0.266200
276
+ 260 0.087300
277
+ 261 0.085400
278
+ 262 0.240300
279
+ 263 0.308800
280
+ 264 0.033000
281
+ 265 0.120300
282
+ 266 0.156400
283
+ 267 0.083200
284
+ 268 0.199200
285
+ 269 0.052000
286
+ 270 0.116600
287
+ 271 0.144000
288
+ 272 0.237700
289
+ 273 0.214700
290
+ 274 0.180600
291
+ 275 0.334200
292
+ 276 0.032800
293
+ 277 0.101700
294
+ 278 0.078800
295
+ 279 0.163300
296
+ 280 0.032700
297
+ 281 0.098000
298
+ 282 0.126500
299
+ 283 0.032600
300
+ 284 0.110000
301
+ 285 0.063500
302
+ 286 0.382900
303
+ 287 0.193200
304
+ 288 0.264400
305
+ 289 0.119000
306
+ 290 0.189500
307
+ 291 0.274900
308
+ 292 0.102100
309
+ 293 0.101000
310
+ 294 0.197300
311
+ 295 0.083300
312
+ 296 0.153000
313
+ 297 0.057500
314
+ 298 0.335000
315
+ 299 0.150400
316
+ 300 0.044300
317
+ 301 0.317200
318
+ 302 0.073700
319
+ 303 0.217200
320
+ 304 0.043100
321
+ 305 0.061800
322
+ 306 0.100500
323
+ 307 0.088800
324
+ 308 0.153700
325
+ 309 0.157200
326
+ 310 0.086700
327
+ 311 0.114000
328
+ 312 0.077200
329
+ 313 0.092000
330
+ 314 0.167700
331
+ 315 0.237000
332
+ 316 0.215800
333
+ 317 0.058100
334
+ 318 0.077200
335
+ 319 0.162900
336
+ 320 0.122400
337
+ 321 0.171100
338
+ 322 0.142000
339
+ 323 0.032100
340
+ 324 0.098500
341
+ 325 0.059400
342
+ 326 0.038500
343
+ 327 0.089000
344
+ 328 0.123200
345
+ 329 0.190200
346
+ 330 0.051700
347
+ 331 0.087400
348
+ 332 0.198400
349
+ 333 0.073500
350
+ 334 0.073100
351
+ 335 0.176600
352
+ 336 0.186100
353
+ 337 0.183000
354
+ 338 0.106100
355
+ 339 0.064700
356
+ 340 0.136500
357
+ 341 0.085600
358
+ 342 0.115400
359
+ 343 0.106000
360
+ 344 0.065800
361
+ 345 0.143100
362
+ 346 0.137300
363
+ 347 0.251000
364
+ 348 0.067200
365
+ 349 0.181600
366
+ 350 0.084600
367
+ 351 0.108800
368
+ 352 0.114600
369
+ 353 0.043200
370
+ 354 0.241500
371
+ 355 0.031800
372
+ 356 0.150500
373
+ 357 0.063700
374
+ 358 0.036100
375
+ 359 0.158100
376
+ 360 0.045700
377
+ 361 0.120200
378
+ 362 0.035800
379
+ 363 0.050200
380
+ 364 0.031700
381
+ 365 0.044000
382
+ 366 0.035400
383
+ 367 0.035300
384
+ 368 0.162500
385
+ 369 0.044400
386
+ 370 0.132700
387
+ 371 0.054300
388
+ 372 0.049100
389
+ 373 0.031500
390
+ 374 0.038000
391
+ 375 0.084900
392
+ 376 0.059000
393
+ 377 0.034500
394
+ 378 0.049200
395
+ 379 0.058100
396
+ 380 0.122700
397
+ 381 0.096400
398
+ 382 0.034300
399
+ 383 0.071700
400
+ 384 0.059300
401
+ 385 0.048500
402
+ 386 0.051000
403
+ 387 0.063000
404
+ 388 0.131400
405
+ 389 0.031100
406
+ 390 0.076700
407
+ 391 0.072200
408
+ 392 0.146300
409
+ 393 0.031000
410
+ 394 0.031000
411
+ 395 0.099200
412
+ 396 0.049000
413
+ 397 0.104100
414
+ 398 0.087400
415
+ 399 0.097100
416
+ 400 0.069800
417
+ 401 0.034900
418
+ 402 0.035300
419
+ 403 0.057400
420
+ 404 0.058000
421
+ 405 0.041100
422
+ 406 0.083400
423
+ 407 0.090000
424
+ 408 0.098600
425
+ 409 0.106100
426
+ 410 0.052600
427
+ 411 0.057800
428
+ 412 0.085500
429
+ 413 0.061600
430
+ 414 0.034000
431
+ 415 0.079700
432
+ 416 0.036800
433
+ 417 0.034600
434
+ 418 0.073800
435
+ 419 0.047900
436
+ 420 0.041100
437
+ 421 0.046300
438
+ 422 0.030600
439
+ 423 0.064200
440
+ 424 0.045900
441
+ 425 0.045600
442
+ 426 0.032900
443
+ 427 0.048800
444
+ 428 0.041700
445
+ 429 0.048200
446
+ 430 0.035800
447
+ 431 0.058200
448
+ 432 0.044100
449
+ 433 0.033400
450
+ 434 0.046100
451
+ 435 0.042800
452
+ 436 0.034900
453
+ 437 0.045800
454
+ 438 0.055800
455
+ 439 0.030300
456
+ 440 0.059600
457
+ 441 0.030200
458
+ 442 0.052700
459
+ 443 0.030200
460
+ 444 0.035600
461
  ```