Edit model card

Cabra 72b

Cabra 72b é um finetune do Qwen 1.5 72b Chat com o dataset Cabra 30k. Esse modelo é otimizado para português e responde em portuguese. Ele apresenta melhoria em vários benchmarks brasileiros em comparação com o modelo base.

Conheça os nossos outros modelos Cabra.

Detalhes do modelo base

Modelo: Qwen 1.5 72b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 30k

Dataset interno para fine-tuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization". Infelizmente o HF limita o tamanho de arquivo a <50gb.

Exemplo

<s> [INST]Quem são os jogadores brasileiros de futebol mais conhecidos, atuais e pasados? [/INST] 

O Brasil tem uma rica história na produção de alguns dos maiores jogadores de futebol do mundo. Alguns dos jogadores brasileiros mais importantes atualmente e que já jogaram incluem:

Pelé - amplamente considerado um dos maiores jogadores de todos os tempos, o Pelé venceu três Copas do Mundo com o Brasil e marcou mais de 1.000 gols em sua carreira.
Ronaldo Nazário de Lima - conhecido como Ronaldo, este jogador de ataque é o segundo maior artilheiro da história da seleção brasileira e ajudou o Brasil a vencer duas Copas do Mundo.

Ronaldinho Gaúcho - um criativo meio-campista ofensivo que jogou pelo Barcelona e pela AC Milan, o Ronaldinho foi nomeado Jogador Mundial FIFA de 2004 e ajudou o Brasil a vencer a Copa do Mundo de 2002.

Neymar Jr. - um dos melhores jogadores do mundo hoje, o Neymar desempenhou um papel fundamental ao liderar o Brasil para várias vitórias em torneios principais e é conhecido por suas habilidades incríveis de drible e capacidade de marcar gols.

Esses são apenas alguns exemplos dos muitos talentosos jogadores de futebol que vieram do Brasil ao longo de sua rica história.
</s>

Paramentros de trainamento

- train/epoch: 3
- train/global_step: 1,893
- train/grad_norm: 0.5843151168226935
- train/learning_rate: 0.00000000006323276533
- train/loss: 0.4379
- train/total_flos: 7,334,660,338,089,984
- train/train_loss: 0.628420232404053
- train/train_runtime: 415,863.2395
- train/train_samples_per_second: 0.437
- train/train_steps_per_second: 0.005
- GPU: 8x A100 80GB SXB

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigação e compreensão das limitações e vieses de modelos gerativos.

**Proibido para uso comercial. Somente Pesquisa. Entre em contato para mais informações. **

Evals

Tasks Version Filter n-shot Metric Value ± Stderr
assin2_rte 1.1 all 15 f1_macro 0.9358 ± 0.0035
all 15 acc 0.9359 ± 0.0035
assin2_sts 1.1 all 15 pearson 0.7803 ± 0.0068
all 15 mse 0.5815 ± N/A
bluex 1.1 all 3 acc 0.6745 ± 0.0101
exam_id__USP_2019 3 acc 0.5500 ± 0.0453
exam_id__UNICAMP_2021_1 3 acc 0.5870 ± 0.0418
exam_id__USP_2020 3 acc 0.6250 ± 0.0373
exam_id__USP_2022 3 acc 0.6939 ± 0.0381
exam_id__UNICAMP_2019 3 acc 0.7200 ± 0.0367
exam_id__UNICAMP_2024 3 acc 0.5778 ± 0.0425
exam_id__USP_2018 3 acc 0.5926 ± 0.0385
exam_id__USP_2021 3 acc 0.6538 ± 0.0381
exam_id__UNICAMP_2023 3 acc 0.7442 ± 0.0385
exam_id__UNICAMP_2021_2 3 acc 0.6667 ± 0.0380
exam_id__UNICAMP_2020 3 acc 0.7091 ± 0.0355
exam_id__USP_2023 3 acc 0.8182 ± 0.0336
exam_id__USP_2024 3 acc 0.8537 ± 0.0318
exam_id__UNICAMP_2022 3 acc 0.6667 ± 0.0435
exam_id__UNICAMP_2018 3 acc 0.6852 ± 0.0364
enem 1.1 all 3 acc 0.8062 ± 0.0060
exam_id__2016_2 3 acc 0.7967 ± 0.0210
exam_id__2014 3 acc 0.8165 ± 0.0214
exam_id__2010 3 acc 0.8291 ± 0.0202
exam_id__2023 3 acc 0.8000 ± 0.0199
exam_id__2009 3 acc 0.7913 ± 0.0219
exam_id__2017 3 acc 0.7931 ± 0.0217
exam_id__2011 3 acc 0.8718 ± 0.0178
exam_id__2015 3 acc 0.8151 ± 0.0205
exam_id__2012 3 acc 0.8621 ± 0.0185
exam_id__2016 3 acc 0.8430 ± 0.0190
exam_id__2013 3 acc 0.7870 ± 0.0228
exam_id__2022 3 acc 0.6842 ± 0.0233
faquad_nli 1.1 all 15 f1_macro 0.4545 ± 0.0081
all 15 acc 0.7877 ± 0.0113
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7212 ± 0.0087
all 25 acc 0.7393 ± 0.0083
oab_exams 1.5 all 3 acc 0.5718 ± 0.0061
Downloads last month
36
Safetensors
Model size
72.3B params
Tensor type
BF16
·

Finetuned from

Collection including botbot-ai/Cabra-72b