Commit
•
04771f1
1
Parent(s):
20db41b
Update README.md
Browse files
README.md
CHANGED
@@ -2,7 +2,10 @@
|
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
Meta-Llama-3-70bのセルフマージ120Bにパラメーター数を拡大したモデルの高性能化が報告されています
|
5 |
-
今回高品質な日本語LLMである、[karakuri-ai/karakuri-lm-8x7b-chat-v0.1](https://huggingface.co/karakuri-ai/karakuri-lm-8x7b-chat-v0.1)の精度を更に高めるために、"num_hidden_layers": 32、から、56への自己拡張マージを行いました。
|
|
|
|
|
|
|
6 |
|
7 |
It was inspired by large merges like:
|
8 |
- [Meta-Llama-3-120B-Instruct](https://huggingface.co/mlabonne/Meta-Llama-3-120B-Instruct/)
|
|
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
Meta-Llama-3-70bのセルフマージ120Bにパラメーター数を拡大したモデルの高性能化が報告されています
|
5 |
+
今回高品質な日本語LLMである、[karakuri-ai/karakuri-lm-8x7b-chat-v0.1](https://huggingface.co/karakuri-ai/karakuri-lm-8x7b-chat-v0.1)の精度を更に高めるために、"num_hidden_layers": 32、から、56への自己拡張マージを行いました。
|
6 |
+
マージに利用したスライスのインターバルは本モデル(Ex-karakuri-8x12B-chat-v1)が8層、[Ex-karakuri-8x12B-chat-v2](https://huggingface.co/aixsatoshi/Mixtral-Swallow-karakuri-8x12B-chat-v2)は4層に設定しています
|
7 |
+
|
8 |
+
|
9 |
|
10 |
It was inspired by large merges like:
|
11 |
- [Meta-Llama-3-120B-Instruct](https://huggingface.co/mlabonne/Meta-Llama-3-120B-Instruct/)
|