Text Generation
Transformers
Safetensors
llama
conversational
text-generation-inference
Inference Endpoints
Hastagaras commited on
Commit
8d7bf6a
·
verified ·
1 Parent(s): dea2ad9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +64 -1
README.md CHANGED
@@ -9,4 +9,67 @@ base_model:
9
  ---
10
 
11
  ### 1 Kaggle Account Fine-Tuning Challenge:
12
- I just realized that abusing free services isn't cool, so I set myself a challenge—to fine-tune this model using only one Kaggle account
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
  ---
10
 
11
  ### 1 Kaggle Account Fine-Tuning Challenge:
12
+ I just realized that abusing free services isn't cool, so I set myself a challenge—to fine-tune this model using only one Kaggle account
13
+
14
+ Base model: [mergekit-community/mergekit-ties-svidyqt](https://huggingface.co/mergekit-community/mergekit-ties-svidyqt)
15
+
16
+ The dataset is already listed, with just a small addition of persona-like data generated with Gemma, and some instruction following data, probably less than 1000 examples—added for better generalization, since the two don’t have system turns
17
+ ```
18
+ #TRAINING: STAGE ONE
19
+ layers = [
20
+ {'layer': 0, 'components': ['v_proj', 'o_proj', 'down_proj', 'gate_proj']},
21
+ {'layer': 1, 'components': ['o_proj', 'down_proj','gate_proj']},
22
+ {'layer': 2, 'components': ['v_proj', 'o_proj', 'gate_proj']},
23
+ {'layer': 3, 'components': ['o_proj', 'down_proj', 'gate_proj']},
24
+ {'layer': 4, 'components': ['v_proj', 'o_proj', 'down_proj', 'gate_proj']}
25
+ ]
26
+ trainable_lm_head=True,
27
+ trainable_embed_tokens=True,
28
+ trainable_model_norm=True
29
+
30
+ #TRAINING: STAGE TWO
31
+ layers = [
32
+ {'layer': 5, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
33
+ {'layer': 6, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
34
+ {'layer': 7, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
35
+ #
36
+ {'layer': 11, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
37
+ {'layer': 12, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
38
+ {'layer': 13, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
39
+ #
40
+ {'layer': 17, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
41
+ {'layer': 18, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
42
+ {'layer': 19, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
43
+ #
44
+ {'layer': 23, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
45
+ {'layer': 24, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
46
+ {'layer': 25, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
47
+ #
48
+ {'layer': 28, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
49
+ {'layer': 29, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']}
50
+ ]
51
+ trainable_lm_head=False,
52
+ trainable_embed_tokens=False,
53
+ trainable_model_norm=False
54
+
55
+ #TRAINING: STAGE THREE
56
+ layers = [
57
+ {'layer': 8, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
58
+ {'layer': 9, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
59
+ {'layer': 10, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
60
+ #
61
+ {'layer': 14, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
62
+ {'layer': 15, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
63
+ {'layer': 16, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
64
+ #
65
+ {'layer': 20, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
66
+ {'layer': 21, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
67
+ {'layer': 22, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
68
+ #
69
+ {'layer': 26, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
70
+ {'layer': 27, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
71
+ #
72
+ {'layer': 30, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']},
73
+ {'layer': 31, 'components': ['q_proj', 'k_proj', 'v_proj', 'o_proj', 'up_proj', 'down_proj', 'gate_proj']}
74
+ ]
75
+ ```