choprahetarth commited on
Commit
c28afd3
1 Parent(s): a8207da

Upload folder using huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +423 -0
README.md ADDED
@@ -0,0 +1,423 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model:
3
+ - google/gemma-2-2b-it
4
+ tags:
5
+ - merge
6
+ - mergekit
7
+ - lazymergekit
8
+ - google/gemma-2-2b-it
9
+ ---
10
+
11
+ # gemma-instruct-merge
12
+
13
+ gemma-instruct-merge is a merge of the following models using [LazyMergekit](https://colab.research.google.com/drive/1obulZ1ROXHjYLn6PPZJwRR6GzgQogxxb?usp=sharing):
14
+ * [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
15
+
16
+ ## 🧩 Configuration
17
+
18
+ ```yaml
19
+ models:
20
+ - model: google/gemma-2-2b
21
+ - model: google/gemma-2-2b-it
22
+ parameters:
23
+ density:
24
+ - filter: self_attn.q_proj.0
25
+ value: 0.00111
26
+ - filter: self_attn.q_proj.1
27
+ value: 0.04206
28
+ - filter: self_attn.q_proj.2
29
+ value: 0.00636
30
+ - filter: self_attn.q_proj.3
31
+ value: 0.01936
32
+ - filter: self_attn.q_proj.4
33
+ value: 0.05024
34
+ - filter: self_attn.q_proj.5
35
+ value: 0.03887
36
+ - filter: self_attn.q_proj.6
37
+ value: 0.00598
38
+ - filter: self_attn.q_proj.7
39
+ value: 0.01845
40
+ - filter: self_attn.q_proj.8
41
+ value: 0.02455
42
+ - filter: self_attn.q_proj.9
43
+ value: 0.03162
44
+ - filter: self_attn.q_proj.10
45
+ value: 0.01905
46
+ - filter: self_attn.q_proj.11
47
+ value: 0.05388
48
+ - filter: self_attn.q_proj.12
49
+ value: 0.04658
50
+ - filter: self_attn.q_proj.13
51
+ value: 0.04073
52
+ - filter: self_attn.q_proj.14
53
+ value: 0.07451
54
+ - filter: self_attn.q_proj.15
55
+ value: 0.00907
56
+ - filter: self_attn.q_proj.16
57
+ value: 0.04742
58
+ - filter: self_attn.q_proj.17
59
+ value: 0.05307
60
+ - filter: self_attn.q_proj.18
61
+ value: 0.06946
62
+ - filter: self_attn.q_proj.19
63
+ value: 0.07954
64
+ - filter: self_attn.q_proj.20
65
+ value: 0.0871
66
+ - filter: self_attn.q_proj.21
67
+ value: 0.08215
68
+ - filter: self_attn.q_proj.22
69
+ value: 0.04543
70
+ - filter: self_attn.q_proj.23
71
+ value: 0.01752
72
+ - filter: self_attn.q_proj.24
73
+ value: 0.01398
74
+ - filter: self_attn.q_proj.25
75
+ value: 0.02189
76
+ - filter: self_attn.k_proj.0
77
+ value: 0.00134
78
+ - filter: self_attn.k_proj.1
79
+ value: 0.02801
80
+ - filter: self_attn.k_proj.2
81
+ value: 0.00516
82
+ - filter: self_attn.k_proj.3
83
+ value: 0.01089
84
+ - filter: self_attn.k_proj.4
85
+ value: 0.0373
86
+ - filter: self_attn.k_proj.5
87
+ value: 0.02292
88
+ - filter: self_attn.k_proj.6
89
+ value: 0.01761
90
+ - filter: self_attn.k_proj.7
91
+ value: 0.03038
92
+ - filter: self_attn.k_proj.8
93
+ value: 0.01651
94
+ - filter: self_attn.k_proj.9
95
+ value: 0.01971
96
+ - filter: self_attn.k_proj.10
97
+ value: 0.01415
98
+ - filter: self_attn.k_proj.11
99
+ value: 0.05657
100
+ - filter: self_attn.k_proj.12
101
+ value: 0.04657
102
+ - filter: self_attn.k_proj.13
103
+ value: 0.03766
104
+ - filter: self_attn.k_proj.14
105
+ value: 0.06191
106
+ - filter: self_attn.k_proj.15
107
+ value: 0.03054
108
+ - filter: self_attn.k_proj.16
109
+ value: 0.07193
110
+ - filter: self_attn.k_proj.17
111
+ value: 0.05085
112
+ - filter: self_attn.k_proj.18
113
+ value: 0.08122
114
+ - filter: self_attn.k_proj.19
115
+ value: 0.09466
116
+ - filter: self_attn.k_proj.20
117
+ value: 0.09547
118
+ - filter: self_attn.k_proj.21
119
+ value: 0.07629
120
+ - filter: self_attn.k_proj.22
121
+ value: 0.04262
122
+ - filter: self_attn.k_proj.23
123
+ value: 0.0132
124
+ - filter: self_attn.k_proj.24
125
+ value: 0.00966
126
+ - filter: self_attn.k_proj.25
127
+ value: 0.0269
128
+ - filter: self_attn.v_proj.0
129
+ value: 0.00604
130
+ - filter: self_attn.v_proj.1
131
+ value: 0.02746
132
+ - filter: self_attn.v_proj.2
133
+ value: 0.00023
134
+ - filter: self_attn.v_proj.3
135
+ value: 0.01785
136
+ - filter: self_attn.v_proj.4
137
+ value: 0.04637
138
+ - filter: self_attn.v_proj.5
139
+ value: 0.0381
140
+ - filter: self_attn.v_proj.6
141
+ value: 0.01711
142
+ - filter: self_attn.v_proj.7
143
+ value: 0.00946
144
+ - filter: self_attn.v_proj.8
145
+ value: 0.04331
146
+ - filter: self_attn.v_proj.9
147
+ value: 0.03508
148
+ - filter: self_attn.v_proj.10
149
+ value: 0.02323
150
+ - filter: self_attn.v_proj.11
151
+ value: 0.05735
152
+ - filter: self_attn.v_proj.12
153
+ value: 0.03522
154
+ - filter: self_attn.v_proj.13
155
+ value: 0.03315
156
+ - filter: self_attn.v_proj.14
157
+ value: 0.08075
158
+ - filter: self_attn.v_proj.15
159
+ value: 0.00321
160
+ - filter: self_attn.v_proj.16
161
+ value: 0.03811
162
+ - filter: self_attn.v_proj.17
163
+ value: 0.05874
164
+ - filter: self_attn.v_proj.18
165
+ value: 0.0798
166
+ - filter: self_attn.v_proj.19
167
+ value: 0.06172
168
+ - filter: self_attn.v_proj.20
169
+ value: 0.08332
170
+ - filter: self_attn.v_proj.21
171
+ value: 0.06119
172
+ - filter: self_attn.v_proj.22
173
+ value: 0.05979
174
+ - filter: self_attn.v_proj.23
175
+ value: 0.04042
176
+ - filter: self_attn.v_proj.24
177
+ value: 0.01768
178
+ - filter: self_attn.v_proj.25
179
+ value: 0.02529
180
+ - filter: self_attn.o_proj.0
181
+ value: 0.00489
182
+ - filter: self_attn.o_proj.1
183
+ value: 0.02963
184
+ - filter: self_attn.o_proj.2
185
+ value: 0.01037
186
+ - filter: self_attn.o_proj.3
187
+ value: 0.0282
188
+ - filter: self_attn.o_proj.4
189
+ value: 0.01913
190
+ - filter: self_attn.o_proj.5
191
+ value: 0.02026
192
+ - filter: self_attn.o_proj.6
193
+ value: 0.00194
194
+ - filter: self_attn.o_proj.7
195
+ value: 0.01702
196
+ - filter: self_attn.o_proj.8
197
+ value: 0.01217
198
+ - filter: self_attn.o_proj.9
199
+ value: 0.12596
200
+ - filter: self_attn.o_proj.10
201
+ value: 0.07404
202
+ - filter: self_attn.o_proj.11
203
+ value: 0.06695
204
+ - filter: self_attn.o_proj.12
205
+ value: 0.11963
206
+ - filter: self_attn.o_proj.13
207
+ value: 0.08394
208
+ - filter: self_attn.o_proj.14
209
+ value: 0.08886
210
+ - filter: self_attn.o_proj.15
211
+ value: 0.01717
212
+ - filter: self_attn.o_proj.16
213
+ value: 0.10637
214
+ - filter: self_attn.o_proj.17
215
+ value: 0.05899
216
+ - filter: self_attn.o_proj.18
217
+ value: 0.01767
218
+ - filter: self_attn.o_proj.19
219
+ value: 0.01819
220
+ - filter: self_attn.o_proj.20
221
+ value: 0.00892
222
+ - filter: self_attn.o_proj.21
223
+ value: 0.02998
224
+ - filter: self_attn.o_proj.22
225
+ value: 0.01114
226
+ - filter: self_attn.o_proj.23
227
+ value: 0.01485
228
+ - filter: self_attn.o_proj.24
229
+ value: 0.00447
230
+ - filter: self_attn.o_proj.25
231
+ value: 0.00927
232
+ - filter: mlp.gate_proj.0
233
+ value: 0.09568
234
+ - filter: mlp.gate_proj.1
235
+ value: 0.01288
236
+ - filter: mlp.gate_proj.2
237
+ value: 0.00291
238
+ - filter: mlp.gate_proj.3
239
+ value: 0.02596
240
+ - filter: mlp.gate_proj.4
241
+ value: 0.10395
242
+ - filter: mlp.gate_proj.5
243
+ value: 0.0627
244
+ - filter: mlp.gate_proj.6
245
+ value: 0.02224
246
+ - filter: mlp.gate_proj.7
247
+ value: 0.04474
248
+ - filter: mlp.gate_proj.8
249
+ value: 0.04204
250
+ - filter: mlp.gate_proj.9
251
+ value: 0.03999
252
+ - filter: mlp.gate_proj.10
253
+ value: 0.0027
254
+ - filter: mlp.gate_proj.11
255
+ value: 0.04703
256
+ - filter: mlp.gate_proj.12
257
+ value: 0.0232
258
+ - filter: mlp.gate_proj.13
259
+ value: 0.00078
260
+ - filter: mlp.gate_proj.14
261
+ value: 0.00946
262
+ - filter: mlp.gate_proj.15
263
+ value: 0.01341
264
+ - filter: mlp.gate_proj.16
265
+ value: 0.00695
266
+ - filter: mlp.gate_proj.17
267
+ value: 0.02098
268
+ - filter: mlp.gate_proj.18
269
+ value: 0.03723
270
+ - filter: mlp.gate_proj.19
271
+ value: 0.05063
272
+ - filter: mlp.gate_proj.20
273
+ value: 0.07824
274
+ - filter: mlp.gate_proj.21
275
+ value: 0.06901
276
+ - filter: mlp.gate_proj.22
277
+ value: 0.04058
278
+ - filter: mlp.gate_proj.23
279
+ value: 0.02026
280
+ - filter: mlp.gate_proj.24
281
+ value: 0.07419
282
+ - filter: mlp.gate_proj.25
283
+ value: 0.05227
284
+ - filter: mlp.up_proj.0
285
+ value: 0.0405
286
+ - filter: mlp.up_proj.1
287
+ value: 0.01271
288
+ - filter: mlp.up_proj.2
289
+ value: 0.0355
290
+ - filter: mlp.up_proj.3
291
+ value: 0.04756
292
+ - filter: mlp.up_proj.4
293
+ value: 0.10248
294
+ - filter: mlp.up_proj.5
295
+ value: 0.07179
296
+ - filter: mlp.up_proj.6
297
+ value: 0.01996
298
+ - filter: mlp.up_proj.7
299
+ value: 0.00477
300
+ - filter: mlp.up_proj.8
301
+ value: 0.05971
302
+ - filter: mlp.up_proj.9
303
+ value: 0.03401
304
+ - filter: mlp.up_proj.10
305
+ value: 0.00776
306
+ - filter: mlp.up_proj.11
307
+ value: 0.0539
308
+ - filter: mlp.up_proj.12
309
+ value: 0.03164
310
+ - filter: mlp.up_proj.13
311
+ value: 0.0101
312
+ - filter: mlp.up_proj.14
313
+ value: 0.027
314
+ - filter: mlp.up_proj.15
315
+ value: 0.00638
316
+ - filter: mlp.up_proj.16
317
+ value: 0.02388
318
+ - filter: mlp.up_proj.17
319
+ value: 0.01701
320
+ - filter: mlp.up_proj.18
321
+ value: 0.05083
322
+ - filter: mlp.up_proj.19
323
+ value: 0.04951
324
+ - filter: mlp.up_proj.20
325
+ value: 0.06965
326
+ - filter: mlp.up_proj.21
327
+ value: 0.06283
328
+ - filter: mlp.up_proj.22
329
+ value: 0.03839
330
+ - filter: mlp.up_proj.23
331
+ value: 0.01068
332
+ - filter: mlp.up_proj.24
333
+ value: 0.0634
334
+ - filter: mlp.up_proj.25
335
+ value: 0.04805
336
+ - filter: mlp.down_proj.0
337
+ value: 0.04494
338
+ - filter: mlp.down_proj.1
339
+ value: 0.02927
340
+ - filter: mlp.down_proj.2
341
+ value: 0.05529
342
+ - filter: mlp.down_proj.3
343
+ value: 0.03749
344
+ - filter: mlp.down_proj.4
345
+ value: 0.02953
346
+ - filter: mlp.down_proj.5
347
+ value: 0.02668
348
+ - filter: mlp.down_proj.6
349
+ value: 0.00829
350
+ - filter: mlp.down_proj.7
351
+ value: 0.07776
352
+ - filter: mlp.down_proj.8
353
+ value: 0.06762
354
+ - filter: mlp.down_proj.9
355
+ value: 0.05744
356
+ - filter: mlp.down_proj.10
357
+ value: 0.01543
358
+ - filter: mlp.down_proj.11
359
+ value: 0.01538
360
+ - filter: mlp.down_proj.12
361
+ value: 0.02167
362
+ - filter: mlp.down_proj.13
363
+ value: 0.01876
364
+ - filter: mlp.down_proj.14
365
+ value: 0.01032
366
+ - filter: mlp.down_proj.15
367
+ value: 0.00995
368
+ - filter: mlp.down_proj.16
369
+ value: 0.05194
370
+ - filter: mlp.down_proj.17
371
+ value: 0.03503
372
+ - filter: mlp.down_proj.18
373
+ value: 0.07623
374
+ - filter: mlp.down_proj.19
375
+ value: 0.00976
376
+ - filter: mlp.down_proj.20
377
+ value: 0.01564
378
+ - filter: mlp.down_proj.21
379
+ value: 0.01396
380
+ - filter: mlp.down_proj.22
381
+ value: 0.03777
382
+ - filter: mlp.down_proj.23
383
+ value: 0.11013
384
+ - filter: mlp.down_proj.24
385
+ value: 0.1041
386
+ - filter: mlp.down_proj.25
387
+ value: 0.01961
388
+ - value: 1
389
+ weight:
390
+ - value: 1
391
+ merge_method: ties
392
+ base_model: google/gemma-2-2b
393
+ parameters:
394
+ normalize: true
395
+ int8_mask: true
396
+ dtype: bfloat16
397
+ tokenizer_source: union
398
+ ```
399
+
400
+ ## 💻 Usage
401
+
402
+ ```python
403
+ !pip install -qU transformers accelerate
404
+
405
+ from transformers import AutoTokenizer
406
+ import transformers
407
+ import torch
408
+
409
+ model = "choprahetarth/gemma-instruct-merge"
410
+ messages = [{"role": "user", "content": "What is a large language model?"}]
411
+
412
+ tokenizer = AutoTokenizer.from_pretrained(model)
413
+ prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
414
+ pipeline = transformers.pipeline(
415
+ "text-generation",
416
+ model=model,
417
+ torch_dtype=torch.float16,
418
+ device_map="auto",
419
+ )
420
+
421
+ outputs = pipeline(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
422
+ print(outputs[0]["generated_text"])
423
+ ```