keitokei1994 commited on
Commit
275e300
1 Parent(s): 48e45d0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +65 -3
README.md CHANGED
@@ -1,3 +1,65 @@
1
- ---
2
- license: llama3
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: llama3
3
+ language:
4
+ - ja
5
+ - en
6
+ tags:
7
+ - moe
8
+ - japanese
9
+ ---
10
+
11
+ ### モデルの説明(English explanation is below.)
12
+
13
+ このモデルは、MergeKitツールを使用して作成されたMixture of Experts (MoE) 言語モデルです。
14
+
15
+ gguf版は [こちら](https://huggingface.co/keitokei1994/Llama-3-ELYZA-hermes-2x8B-gguf) 。
16
+
17
+ ### モデルの詳細
18
+
19
+ - **モデル名**: Llama-3-ELYZA-hermes-2x8B
20
+ - **モデルアーキテクチャ**: Mixture of Experts (MoE)
21
+ - **ベースモデル**:
22
+ - Llama-3-ELYZA-JP-8B
23
+ - Hermes-2-Theta-Llama-3-8B
24
+ - **マージツール**: MergeKit
25
+
26
+ このMoEモデルは、Llama-3-ELYZA-JP-8Bの日本語能力とHermes-2-Theta-Llama-3-8Bの特性を組み合わせることで、より強力で多機能な言語モデルを目指しています。
27
+
28
+ #### 特徴
29
+ - 日本語と英語の両方に対応
30
+ - Llama-3-ELYZA-JP-8Bによる優れた日本語処理能力
31
+ - Hermes-2-Theta-Llama-3-8Bの特性を活かした多様なタスクへの適応性
32
+
33
+ #### 要求スペック
34
+ Q4_K_M量子化モデルであれば、RTX3060 12GBでフルロード可能です。
35
+
36
+ 筆者はWSL2やGoogle Colaboratotry Proでの作成後、Llama.cppとLMstudioにて動作確認を行っています。
37
+
38
+ ---
39
+
40
+ ### Model Description
41
+
42
+ This model is a Mixture of Experts (MoE) language model created using the MergeKit tool.
43
+
44
+ The gguf version can be found [here](https://huggingface.co/keitokei1994/Llama-3-ELYZA-hermes-2x8B-gguf).
45
+
46
+ ### Model Details
47
+
48
+ - **Model Name**: Llama-3-ELYZA-hermes-2x8B
49
+ - **Model Architecture**: Mixture of Experts (MoE)
50
+ - **Base Models**:
51
+ - Llama-3-ELYZA-JP-8B
52
+ - Hermes-2-Theta-Llama-3-8B
53
+ - **Merge Tool**: MergeKit
54
+
55
+ This MoE model aims to create a more powerful and versatile language model by combining the Japanese language capabilities of Llama-3-ELYZA-JP-8B with the characteristics of Hermes-2-Theta-Llama-3-8B.
56
+
57
+ #### Features
58
+ - Support for both Japanese and English languages
59
+ - Excellent Japanese processing capabilities from Llama-3-ELYZA-JP-8B
60
+ - Adaptability to various tasks leveraging the characteristics of Hermes-2-Theta-Llama-3-8B
61
+
62
+ #### System Requirements
63
+ If using the Q4_K_M quantized model, it can be fully loaded on an RTX3060 12GB.
64
+
65
+ The author has created the model using WSL2 and Google Colaboratory Pro, and has tested it using Llama.cpp and LMstudio.