CabraQwen7b / README.md
nicolasdec's picture
Fixing some errors of the leaderboard evaluation results in the ModelCard yaml (#2)
bf773cb verified
metadata
language:
  - pt
  - en
license: cc
tags:
  - text-generation-inference
  - transformers
  - qwen
  - gguf
  - brazil
  - brasil
  - portuguese
base_model: Qwen/Qwen1.5-7B-Chat
pipeline_tag: text-generation
model-index:
  - name: CabraQwen7b
    results:
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: ENEM Challenge (No Images)
          type: eduagarcia/enem_challenge
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 69.21
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: BLUEX (No Images)
          type: eduagarcia-temp/BLUEX_without_images
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 56.05
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: OAB Exams
          type: eduagarcia/oab_exams
          split: train
          args:
            num_few_shot: 3
        metrics:
          - type: acc
            value: 43.23
            name: accuracy
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 RTE
          type: assin2
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 88.52
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: Assin2 STS
          type: eduagarcia/portuguese_benchmark
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: pearson
            value: 76.17
            name: pearson
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: FaQuAD NLI
          type: ruanchaves/faquad-nli
          split: test
          args:
            num_few_shot: 15
        metrics:
          - type: f1_macro
            value: 57.8
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: HateBR Binary
          type: ruanchaves/hatebr
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 76.32
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: PT Hate Speech Binary
          type: hate_speech_portuguese
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 69.69
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard
      - task:
          type: text-generation
          name: Text Generation
        dataset:
          name: tweetSentBR
          type: eduagarcia-temp/tweetsentbr
          split: test
          args:
            num_few_shot: 25
        metrics:
          - type: f1_macro
            value: 65.96
            name: f1-macro
        source:
          url: >-
            https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=nicolasdec/CabraQwen7b
          name: Open Portuguese LLM Leaderboard

Cabra Qwen 7b

Esse modelo é um finetune do Qwen 1.5 7b Chat com o dataset interno Cabra 10k. Esse modelo é optimizado para português e responde em portuguese nativamente. Ele apresenta melhoria em varios benchmarks brasileiros em comparação com o modelo base.

Exprimente o nosso demo aqui: CabraChat.

Conheça os nossos outros modelos: Cabra.

Detalhes do Modelo

Modelo: Qwen 1.5 7b chat

Qwen1.5 é uma série de modelos de linguagem que inclui modelos de linguagem decodificadores de diferentes tamanhos de modelo. Para cada tamanho, lançamos o modelo de linguagem base e o modelo de chat alinhado. Baseia-se na arquitetura Transformer com ativação SwiGLU, viés de atenção QKV, atenção de consulta em grupo, mistura de atenção de janela deslizante e atenção completa, etc. Adicionalmente, temos um tokenizador melhorado adaptativo a múltiplas línguas naturais e códigos. Para a versão beta, temporariamente não incluímos GQA e a mistura de SWA e atenção completa.

dataset: Cabra 10k

Dataset interno para finetuning. Vamos lançar em breve.

Quantização / GGUF

Colocamos diversas versões (GGUF) quantanizadas no branch "quantanization".

Exemplo

<s> [INST] What makes Brasília special? [/INST] Brasília, a capital do Brasil, é uma cidade única e especial por várias razões. Estabelecida como o novo centro político do país em 1960, ela foi projetada pelo arquiteto Oscar Niemeyer e pelo urbanista Lúcio Costa para ser um símbolo da modernidade e progresso brasileiro.

Aqui estão algumas características que tornam Brasília especial:

Design Urbano: A cidade é conhecida por seu design inovador e futurista, com seus arranha-céus imponentes, grandes praças abertas e espaços verdes extensos. O layout da cidade segue um padrão de grade, com cada distrito representando diferentes aspectos da cultura e história brasileira.

Praça dos Três Poderes: Está enorme praça central é cercada pelos prédios da Assembleia Nacional (conhecido como "Palácio do Planalto"), Senado Federal e Supremo Tribunal Federal. É um marco icônico da cidade e um local popular para eventos políticos.

Monumentos e Arquitetura: Brasília possui muitos monumentos impressionantes e edifícios arquitetônicos notáveis, incluindo o Museu Nacional de História Natural e Ciências, o Planetário Anhembi, o Palácio da Alvorada e a Basílica Nossa Senhora Aparecida.

Espaços Verdes: A cidade é cercada por parques e reservas naturais, proporcionando aos moradores e visitantes amplos espaços para relaxar, praticar esportes ou simplesmente apreciar a beleza natural do ambiente.

Cultura e Eventos: Como a capital nacional, Brasília hospeda vários festivais culturais e eventos importantes ao longo do ano, como o Festival Internacional de Cinema de Brasília, o Carnaval das Nações Unidas e o Festival de Música de Verão de Brasília.
Significado Histórico: A construção de Brasília marcou um momento significativo na história do Brasil, pois simbolizou sua independência política e busca pela modernização. Ela também serviu como exemplo para outros países em desenvolvimento que buscavam criar novas capitais.

Inclusão Social: Brasília foi projetada levando em consideração a inclusão social, com bairros bem planejados distribuídos uniformemente pela cidade para garantir acesso igualitário à educação, saúde e serviços públicos.

Em resumo, Brasília é uma cidade única e especial devido ao seu design inovador, pontos turísticos icônicos, conexão histórica com o desenvolvimento do Brasil e compromisso com a inclusão social.
</s>

Paramentros de trainamento

- learning_rate: 1e-05
- train_batch_size: 4
- eval_batch_size: 4
- seed: 42
- distributed_type: multi-GPU
- num_devices: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 64
- total_eval_batch_size: 8
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.01
- num_epochs: 3

Framework

  • Transformers 4.39.0.dev0
  • Pytorch 2.1.2+cu118
  • Datasets 2.14.6
  • Tokenizers 0.15.2

Uso

O modelo é destinado, por agora, a fins de pesquisa. As áreas e tarefas de pesquisa possíveis incluem:

  • Pesquisa sobre modelos gerativos.
  • Investigação e compreensão das limitações e viéses de modelos gerativos.

Proibido para uso comercial. Somente Pesquisa.

Evals

Tasks Version Filter n-shot Metric Value Stderr
assin2_rte 1.1 all 15 f1_macro 0.8852 ± 0.0046
all 15 acc 0.8852 ± 0.0046
assin2_sts 1.1 all 15 pearson 0.7618 ± 0.0067
all 15 mse 0.5283 ± N/A
bluex 1.1 all 3 acc 0.5605 ± 0.0107
exam_id__USP_2021 3 acc 0.5385 ± 0.0400
exam_id__UNICAMP_2021_2 3 acc 0.5490 ± 0.0401
exam_id__USP_2019 3 acc 0.4750 ± 0.0455
exam_id__USP_2022 3 acc 0.4898 ± 0.0413
exam_id__USP_2020 3 acc 0.5714 ± 0.0381
exam_id__UNICAMP_2019 3 acc 0.6200 ± 0.0398
exam_id__USP_2018 3 acc 0.5000 ± 0.0392
exam_id__USP_2024 3 acc 0.7073 ± 0.0411
exam_id__UNICAMP_2020 3 acc 0.6000 ± 0.0382
exam_id__UNICAMP_2024 3 acc 0.6000 ± 0.0422
exam_id__USP_2023 3 acc 0.5682 ± 0.0429
exam_id__UNICAMP_2018 3 acc 0.4444 ± 0.0391
exam_id__UNICAMP_2021_1 3 acc 0.4783 ± 0.0425
exam_id__UNICAMP_2023 3 acc 0.6047 ± 0.0430
exam_id__UNICAMP_2022 3 acc 0.7179 ± 0.0416
enem 1.1 all 3 acc 0.6921 ± 0.0071
exam_id__2012 3 acc 0.7241 ± 0.0240
exam_id__2015 3 acc 0.7059 ± 0.0241
exam_id__2023 3 acc 0.6741 ± 0.0233
exam_id__2016_2 3 acc 0.6992 ± 0.0238
exam_id__2022 3 acc 0.6090 ± 0.0245
exam_id__2010 3 acc 0.7436 ± 0.0233
exam_id__2016 3 acc 0.6612 ± 0.0248
exam_id__2009 3 acc 0.7391 ± 0.0236
exam_id__2014 3 acc 0.6606 ± 0.0262
exam_id__2017 3 acc 0.7155 ± 0.0241
exam_id__2011 3 acc 0.7778 ± 0.0222
exam_id__2013 3 acc 0.6019 ± 0.0272
faquad_nli 1.1 all 15 f1_macro 0.5780 ± 0.0165
all 15 acc 0.7785 ± 0.0115
hatebr_offensive_binary 1.0 all 25 f1_macro 0.7632 ± 0.0082
all 25 acc 0.7736 ± 0.0079
oab_exams 1.5 all 3 acc 0.4323 ± 0.0061
exam_id__2015-18 3 acc 0.5000 ± 0.0322
exam_id__2015-17 3 acc 0.5128 ± 0.0326
exam_id__2010-01 3 acc 0.3412 ± 0.0297
exam_id__2016-21 3 acc 0.4000 ± 0.0317
exam_id__2012-06 3 acc 0.4500 ± 0.0322
exam_id__2011-05 3 acc 0.3750 ± 0.0313
exam_id__2016-20a 3 acc 0.3250 ± 0.0302
exam_id__2018-25 3 acc 0.4250 ± 0.0319
exam_id__2016-19 3 acc 0.4359 ± 0.0325
exam_id__2017-22 3 acc 0.4250 ± 0.0319
exam_id__2016-20 3 acc 0.3875 ± 0.0315
exam_id__2014-14 3 acc 0.4875 ± 0.0324
exam_id__2017-24 3 acc 0.4625 ± 0.0322
exam_id__2017-23 3 acc 0.4250 ± 0.0320
exam_id__2012-06a 3 acc 0.4625 ± 0.0321
exam_id__2014-15 3 acc 0.5256 ± 0.0326
exam_id__2012-09 3 acc 0.3377 ± 0.0310
exam_id__2012-07 3 acc 0.4500 ± 0.0322
exam_id__2014-13 3 acc 0.4500 ± 0.0322
exam_id__2012-08 3 acc 0.4750 ± 0.0323
exam_id__2013-11 3 acc 0.4250 ± 0.0319
exam_id__2011-03 3 acc 0.3636 ± 0.0279
exam_id__2013-12 3 acc 0.4625 ± 0.0321
exam_id__2011-04 3 acc 0.3875 ± 0.0315
exam_id__2010-02 3 acc 0.5400 ± 0.0288
exam_id__2013-10 3 acc 0.4250 ± 0.0320
exam_id__2015-16 3 acc 0.4125 ± 0.0318
portuguese_hate_speech_binary 1.0 all 25 f1_macro 0.6969 ± 0.0119
all 25 acc 0.7356 ± 0.0107

Open Portuguese LLM Leaderboard Evaluation Results

Detailed results can be found here

Metric Value
Average 66.99
ENEM Challenge (No Images) 69.21
BLUEX (No Images) 56.05
OAB Exams 43.23
Assin2 RTE 88.52
Assin2 STS 76.17
FaQuAD NLI 57.80
HateBR Binary 76.32
PT Hate Speech Binary 69.69
tweetSentBR 65.96