aixsatoshi's picture
Update README.md
20db41b verified
metadata
license: apache-2.0

Meta-Llama-3-70bのセルフマージ120Bにパラメーター数を拡大したモデルの高性能化が報告されています
今回高品質な日本語LLMである、karakuri-ai/karakuri-lm-8x7b-chat-v0.1の精度を更に高めるために、"num_hidden_layers": 32、から、56への自己拡張マージを行いました。

It was inspired by large merges like:

slices:
- sources:
  - layer_range: [0, 8]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [4, 12]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [8, 16]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [12, 20]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [16, 24]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [20, 28]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
- sources:
  - layer_range: [24, 32]
    model: karakuri-ai/karakuri-lm-8x7b-chat-v0.1
merge_method: passthrough
dtype: bfloat16