LLM_MERGE_CC2

LLM_MERGE_CC2 est une fusion des modèles suivants créée par ManoloPueblo utilisant mergekit:

🧩 Configuration de la fusion

merge_method: ties
base_model: mistralai/Mistral-7B-v0.1
models:
  - model: mistralai/Mistral-7B-v0.1
    # no parameters necessary for base model
  - model: OpenPipe/mistral-ft-optimized-1218
    parameters:
      density: 0.5
      weight: 0.5
  - model: mlabonne/NeuralHermes-2.5-Mistral-7B
    parameters:
      density: 0.5
      weight: 0.3
parameters:
  normalize: true
  dtype: float16

Description

LLM_MERGE_CC2 est un modèle de langage créé par la fusion de trois variantes Mistral :

Mistral-7B-v0.1 - Le modèle de base Mistral (modèle de référence)
mistral-ft-optimized-1218 - Version optimisée par OpenPipe (poids: 0.5, densité: 0.5)
NeuralHermes-2.5-Mistral-7B - Version améliorée par MLabonne (poids: 0.3, densité: 0.5)

Cette fusion utilise la méthode "ties" avec normalisation et une précision float16 pour combiner les forces des trois modèles.

Architecture

Le modèle conserve l'architecture de base de Mistral-7B tout en incorporant les améliorations des trois versions à travers une fusion pondérée. La méthode "ties" permet une fusion plus sophistiquée des poids des modèles.

Paramètres de fusion

Méthode de fusion : ties
Normalisation : activée
Type de données : float16
Densités et poids :
- OpenPipe/mistral-ft-optimized-1218 : densité 0.5, poids 0.5
- NeuralHermes-2.5-Mistral-7B : densité 0.5, poids 0.3

Utilisation

Ce modèle peut être utilisé avec la bibliothèque transformers de Hugging Face :

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("ManoloPueblo/LLM_MERGE_CC2")
model = AutoModelForCausalLM.from_pretrained("ManoloPueblo/LLM_MERGE_CC2")

Modèles fusionnés

Mistral-7B-v0.1 - Modèle de base
mistral-ft-optimized-1218 - Version optimisée
NeuralHermes-2.5-Mistral-7B - Version améliorée

Limitations

Comme pour tout modèle de langage, les utilisateurs doivent être conscients des biais potentiels et des limitations inhérentes aux modèles sources. Les performances peuvent varier selon les cas d'utilisation.

ManoloPueblo
/

LLM_MERGE_CC2