LLM_MERGE_CC3 / README.md
ManoloPueblo's picture
Update README.md
e7ae5ad verified
|
raw
history blame
3.22 kB
metadata
license: apache-2.0
tags:
  - merge
  - mergekit
  - lazymergekit
  - llm-merge-cc3
  - mistral-7b
  - mistral-ft-optimized
  - neural-hermes
  - mistralai/Mistral-7B-v0.1
  - samir-fama/SamirGPT-v1
  - abacusai/Slerp-CM-mist-dpo
  - EmbeddedLLM/Mistral-7B-Merge-14-v0.2

LLM_MERGE_CC3

LLM_MERGE_CC3 est une fusion des modèles suivants créée par ManoloPueblo utilisant mergekit:

🧩 Configuration de la fusion

merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
models:
  - model: mistralai/Mistral-7B-v0.1
    # No parameters necessary for base model
  - model: samir-fama/SamirGPT-v1
    parameters:
      density: 0.53
      weight: 0.4
  - model: abacusai/Slerp-CM-mist-dpo
    parameters:
      density: 0.53
      weight: 0.3
  - model: EmbeddedLLM/Mistral-7B-Merge-14-v0.2
    parameters:
      density: 0.53
      weight: 0.3
merge_method: dare_ties
base_model: mistralai/Mistral-7B-v0.1
parameters:
  int8_mask: true
dtype: bfloat16

Description

LLM_MERGE_CC3 est un modèle de langage créé par la fusion de trois variantes Mistral :

  1. Mistral-7B-v0.1 - Le modèle de base Mistral (modèle de référence)
  2. mistral-ft-optimized-1218 - Version optimisée par OpenPipe (poids: 0.5, densité: 0.5)
  3. NeuralHermes-2.5-Mistral-7B - Version améliorée par MLabonne (poids: 0.3, densité: 0.5)

Cette fusion utilise la méthode "ties" avec normalisation et une précision float16 pour combiner les forces des trois modèles.

Architecture

Le modèle conserve l'architecture de base de Mistral-7B tout en incorporant les améliorations des trois versions à travers une fusion pondérée. La méthode "ties" permet une fusion plus sophistiquée des poids des modèles.

Paramètres de fusion

  • Méthode de fusion : ties
  • Normalisation : activée
  • Type de données : float16
  • Densités et poids :
    • OpenPipe/mistral-ft-optimized-1218 : densité 0.5, poids 0.5
    • NeuralHermes-2.5-Mistral-7B : densité 0.5, poids 0.3

Utilisation

Ce modèle peut être utilisé avec la bibliothèque transformers de Hugging Face :

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ManoloPueblo/LLM_MERGE_CC3")
model = AutoModelForCausalLM.from_pretrained("ManoloPueblo/LLM_MERGE_CC3")

Modèles fusionnés

  1. Mistral-7B-v0.1 - Modèle de base
  2. mistral-ft-optimized-1218 - Version optimisée
  3. NeuralHermes-2.5-Mistral-7B - Version améliorée

Limitations

Comme pour tout modèle de langage, les utilisateurs doivent être conscients des biais potentiels et des limitations inhérentes aux modèles sources. Les performances peuvent varier selon les cas d'utilisation.