Edit model card

Meta-Llama-3-70bのセルフマージにより120Bにパラメーター数を拡大したモデルの高性能化が報告されています
今回高品質な日本語LLMである、karakuri-ai/karakuri-lm-8x7b-chat-v0.1の精度を更に高めるために、"num_hidden_layers": 32、から、56への自己拡張マージを行いました。
マージに利用したスライスのインターバルから本モデル(Ex-karakuri-8x12B-chat-v1)が非マージ部分8層、Ex-karakuri-8x12B-chat-v2は4層に設定しています

It was inspired by large merges like:

slices:
- sources:
  - layer_range: [0, 8]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [4, 12]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [8, 16]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [12, 20]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [16, 24]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [20, 28]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [24, 32]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
merge_method: passthrough
dtype: bfloat16
Downloads last month
4
Safetensors
Model size
81.5B params
Tensor type
BF16
·