Llama-3-Ko-Instruct-Pro-11B

This is a merge of pre-trained language models created using mergekit.

Merge Details

Merge Method

This model was merged using the passthrough merge method.

Models Merged

The following models were included in the merge:

maywell/Llama-3-Ko-8B-Instruct

Configuration

The following YAML configuration was used to produce this model:

const_tag: &MODEL1 maywell/Llama-3-Ko-8B-Instruct

const_tag: &ZERO_LINEAR_FACTOR 0.0

block_expansion_env: &block_expansion_env
  parameters:
    scale:
      - filter: o_proj
        value: *ZERO_LINEAR_FACTOR
      - filter: down_proj
        value: *ZERO_LINEAR_FACTOR
      - value: 1.0

slices:
  - sources:
    - model: *MODEL1
      layer_range: [0, 4]
  - sources:
    - model: *MODEL1
      layer_range: [3, 4]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [4, 8]
  - sources:
    - model: *MODEL1
      layer_range: [7, 8]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [8, 12]
  - sources:
    - model: *MODEL1
      layer_range: [11, 12]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [12, 16]
  - sources:
    - model: *MODEL1
      layer_range: [15, 16]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [16, 20]
  - sources:
    - model: *MODEL1
      layer_range: [19, 20]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [20, 24]
  - sources:
    - model: *MODEL1
      layer_range: [23, 24]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [24, 28]
  - sources:
    - model: *MODEL1
      layer_range: [27, 28]
      <<: *block_expansion_env
  - sources:
    - model: *MODEL1
      layer_range: [28, 32]
  - sources:
    - model: *MODEL1
      layer_range: [31, 32]
      <<: *block_expansion_env
 
merge_method: passthrough
dtype: bfloat16

tryumanshow
/

Llama-3-Ko-Instruct-Pro-11B

Llama-3-Ko-Instruct-Pro-11B

Merge Details

Merge Method

Models Merged

Configuration

Model tree for tryumanshow/Llama-3-Ko-Instruct-Pro-11B