Update README.md
Browse files
README.md
CHANGED
@@ -9,4 +9,67 @@ base_model:
|
|
9 |
---
|
10 |
|
11 |
### 1 Kaggle Account Fine-Tuning Challenge:
|
12 |
-
I just realized that abusing free services isn't cool, so I set myself a challenge—to fine-tune this model using only one Kaggle account
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9 |
---
|
10 |
|
11 |
### 1 Kaggle Account Fine-Tuning Challenge:
|
12 |
+
I just realized that abusing free services isn't cool, so I set myself a challenge—to fine-tune this model using only one Kaggle account
|
13 |
+
|
14 |
+
Base model: [mergekit-community/mergekit-ties-svidyqt](https://huggingface.co/mergekit-community/mergekit-ties-svidyqt)
|
15 |
+
|
16 |
+
The dataset is already listed, with just a small addition of persona-like data generated with Gemma, and some instruction following data, probably less than 1000 examples—added for better generalization, since the two don’t have system turns
|
17 |
+
```
|
18 |
+
#TRAINING: STAGE ONE
|
19 |
+
layers = [
|
20 |
+
{'layer': 0, 'components': ['v_proj', 'o_proj', 'down_proj', 'gate_proj']},
|
21 |
+
{'layer': 1, 'components': ['o_proj', 'down_proj','gate_proj']},
|
22 |
+
{'layer': 2, 'components': ['v_proj', 'o_proj', 'gate_proj']},
|
23 |
+
{'layer': 3, 'components': ['o_proj', 'down_proj', 'gate_proj']},
|
24 |
+
{'layer': 4, 'components': ['v_proj', 'o_proj', 'down_proj', 'gate_proj']}
|
25 |
+
]
|
26 |
+
trainable_lm_head=True,
|
27 |
+
trainable_embed_tokens=True,
|
28 |
+
trainable_model_norm=True
|
29 |
+
|
30 |
+
#TRAINING: STAGE TWO
|
31 |
+
layers = [
|
32 |
+
{'layer': 5, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
33 |
+
{'layer': 6, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
34 |
+
{'layer': 7, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
35 |
+
#
|
36 |
+
{'layer': 11, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
37 |
+
{'layer': 12, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
38 |
+
{'layer': 13, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
39 |
+
#
|
40 |
+
{'layer': 17, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
41 |
+
{'layer': 18, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
42 |
+
{'layer': 19, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
43 |
+
#
|
44 |
+
{'layer': 23, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
45 |
+
{'layer': 24, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
46 |
+
{'layer': 25, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
47 |
+
#
|
48 |
+
{'layer': 28, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
49 |
+
{'layer': 29, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']}
|
50 |
+
]
|
51 |
+
trainable_lm_head=False,
|
52 |
+
trainable_embed_tokens=False,
|
53 |
+
trainable_model_norm=False
|
54 |
+
|
55 |
+
#TRAINING: STAGE THREE
|
56 |
+
layers = [
|
57 |
+
{'layer': 8, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
58 |
+
{'layer': 9, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
59 |
+
{'layer': 10, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
60 |
+
#
|
61 |
+
{'layer': 14, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
62 |
+
{'layer': 15, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
63 |
+
{'layer': 16, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
64 |
+
#
|
65 |
+
{'layer': 20, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
66 |
+
{'layer': 21, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
67 |
+
{'layer': 22, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
68 |
+
#
|
69 |
+
{'layer': 26, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
70 |
+
{'layer': 27, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
71 |
+
#
|
72 |
+
{'layer': 30, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
|
73 |
+
{'layer': 31, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']}
|
74 |
+
]
|
75 |
+
```
|