File size: 3,531 Bytes
c34cb30
 
 
 
 
c0065e6
 
 
 
 
 
51ff113
e9eeb0f
2dab7f5
 
1ea96eb
c0065e6
 
 
 
1ea96eb
c0065e6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
e9eeb0f
 
c0065e6
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
---
license: llama3
language:
- ja
- en
---

### モデルの説明(English explanation is below.)

このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。

gguf版は [こちら](https://huggingface.co/keitokei1994/Llama-3-8B-shisa-2x8B-gguf) 。

mradermacherさんがgguf形式での量子化を行ってくれました。[こちらから確認できます](https://huggingface.co/mradermacher/Llama-3-8B-shisa-2x8B-GGUF)

元のmeta-llama/Meta-Llama-3-8B-Instructに、日本語データセットでファインチューニングされたshisa-ai/shisa-v1-llama3-8を合わせることで、元のMeta-Llama-3-8B-Instructの能力を維持したまま、日本語能力を向上させようとしたモデルです。

[Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B)と
[Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B)にインスパイアされて、Llama3でのMoEを始めています。お二人に感謝します。

お二人が行なっているような、ファインチューニングモデルから取り出したchatvectorを加算し、MoEモデル化するアプローチも手元では行なっていますので、今後時間のある時にモデルのアップロードができたらと考えています。

### モデルの詳細

- **モデル名**: Llama-3-8B-shisa-2x8B
- **モデルアーキテクチャ**: Mixture of Experts (MoE)
- **ベースモデル**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
- **マージツール**: MergeKit

#### 要求スペック
Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。

筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行なっています。

- CPU: Ryzen 5 3600
- GPU: GeForce RTX 3060 12GB
- RAM: DDR4-3200 96GB
- OS: Windows 10

---
license: llama3
language:
- ja
- en
---

### Model Description

This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.

gguf is [here](https://huggingface.co/keitokei1994/Llama-3-8B-shisa-2x8B) .

By combining the original meta-llama/Meta-Llama-3-8B-Instruct with shisa-ai/shisa-v1-llama3-8, which was fine-tuned on a Japanese dataset, this model aims to improve Japanese language capabilities while maintaining the abilities of the original Meta-Llama-3-8B-Instruct.

Inspired by [Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B) and [Aratako/LightChatAssistant-4x7B](https://huggingface.co/Aratako/LightChatAssistant-4x7B), I have started MoE on Llama3. I am grateful to both of them.

I am also experimenting with adding chatvectors extracted from fine-tuned models and creating MoE models, similar to the approach taken by the two individuals mentioned above. I plan to upload the models in the future.

### Model Details

- **Model Name**: Llama-3-8B-shisa-2x8B
- **Model Architecture**: Mixture of Experts (MoE)
- **Base Models**: meta-llama/Meta-Llama-3-8B-Instruct, shisa-ai/shisa-v1-llama3-8b
- **Merge Tool**: MergeKit

#### Required Specifications

With Q4_K_M quantization, the model can be fully loaded on an RTX 3060 12GB.

I have tested the model on Windows, WSL2 in Windows and Google Colaboratory Pro after creation, and have verified its functionality using Llama.cpp and LMstudio.

- CPU: Ryzen 5 3600
- GPU: GeForce RTX 3060 12GB
- RAM: DDR4-3200 96GB
- OS: Windows 10