Edit model card

karakuri-lm-upscaled-103b-v0.1

GGUF版はこちら/Click here for the GGUF version

概要/Description

karakuri-ai/karakuri-lm-70b-chat-v0.1を自身でフランケンマージし、103bまで拡張したモデルです。ライセンスに関しては元モデルと同一です。

wolfram/miqu-1-103bと同じマージ手法を用いています。

This is a 103b frankenmerge of karakuri-ai/karakuri-lm-70b-chat-v0.1 created by interleaving layers of karakuri-ai/karakuri-lm-70b-chat-v0.1 with itself using mergekit. Please refer to the original model regarding the license.

Inspired by wolfram/miqu-1-103b.

ライセンス/License

元モデルのライセンスを継承します。元モデルのライセンスを引用します。

This model inherits the license of the original model. I will quote the license of the original model.

Llama 2 is licensed under the LLAMA 2 Community License, Copyright © Meta Platforms, Inc. All Rights Reserved.

Subject to the license above, and except for commercial purposes, you are free to share and adapt KARAKURI LM, provided that you must, in a recognizable and appropriate manner, (i) state that you are using KARAKURI LM developed by KARAKURI Inc., when you publish or make available to third parties KARAKURI LM, its derivative works or modification, or any output or results of KARAKURI LM or its derivative works or modification, and (ii) indicate your contributions, if you modified any material of KARAKURI LM.

If you plan to use KARAKURI LM for commercial purposes, please contact us beforehand. You are not authorized to use KARAKURI LM for commercial purposes unless we expressly grant you such rights.

If you have any questions regarding the interpretation of above terms, please also feel free to contact us.

ベンチマーク/Benchmark

ベースとしたkarakuri-ai/karakuri-lm-70b-chat-v0.1と本モデルのjapanese-mt-benchの結果は以下の通りです。 (シングルターン, 4ビット量子化)

平均スコアは低くなっていますが、本モデルの出力は元モデルより長くなっていることが目視で確認され、ベンチマーク設定の関係上出力が途中で途切れてしまい低評価をされることが多い印象でした。(主にHumanitiesやWriting)

こちらを加味すると総合的な性能は同等かあるいはやや高いのではと考察しています。

Model Size Coding Extraction Humanities Math Reasoning Roleplay STEM Writing avg_score
karakuri-lm-70b-chat-v0.1 70B 4.8 7.4 9.3 2.8 5.9 8.2 9.3 9.3 7.125
This model 103B 3.3 8.0 8.5 3.4 6.8 7.6 9.0 8.2 6.850

レーダーチャート

ベンチマークに使用したプロンプト

<s>[INST] <<SYS>>
あなたは誠実で優秀な日本人のアシスタントです。
<</SYS>>

{instruction} [ATTR] helpfulness: 4 correctness: 4 coherence: 4 complexity: 4 verbosity: 4 quality: 4 toxicity: 0 humor: 0 creativity: 0 [/ATTR] [/INST]

Merge Details

Merge Method

This model was merged using the passthrough merge method.

Models Merged

The following models were included in the merge:

  • ./karakuri-lm-70b-chat-v0.1

Configuration

The following YAML configuration was used to produce this model:

merge_method: passthrough
slices:
  - sources:
      - model: ./karakuri-lm-70b-chat-v0.1
        layer_range: [0, 40]
  - sources:
      - model: ./karakuri-lm-70b-chat-v0.1
        layer_range: [20, 60]
  - sources:
      - model: ./karakuri-lm-70b-chat-v0.1
        layer_range: [40, 80]
dtype: bfloat16
Downloads last month
3
Safetensors
Model size
103B params
Tensor type
BF16
·

Finetuned from