Adding the Open Portuguese LLM Leaderboard Evaluation Results

#1
Files changed (1) hide show
  1. README.md +164 -5
README.md CHANGED
@@ -1,28 +1,171 @@
1
  ---
2
- license: llama2
3
  language:
4
  - pt
5
- pipeline_tag: text-generation
6
  library_name: transformers
7
  tags:
8
  - llama
9
  - peft
10
  - portuguese
11
  - instruct
12
-
13
  model-index:
14
  - name: boana-7b-instruct
15
  results:
16
  - task:
17
  type: text-generation
18
  dataset:
19
- type: Muennighoff/xwinograd
20
  name: XWinograd (pt)
 
21
  config: pt
22
  split: test
23
  metrics:
24
  - type: Accuracy
25
  value: 50.57
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
26
  ---
27
 
28
  <hr>
@@ -91,4 +234,20 @@ print(outputs[0]['generated_text'])
91
 
92
  - **repetition_penalty:** é utilizado para evitar a repetição de palavras ou frases. Quando esse valor é ajustado para ser maior que 1, o modelo tenta diminuir a probabilidade de gerar palavras que já apareceram anteriormente. Basicamente, quanto maior o valor, mais o modelo tenta evitar repetições.
93
  - **do_sample:** determina se o modelo deve ou não amostrar aleatoriamente a próxima palavra com base nas probabilidades calculadas. Portanto, **do_sample=True** introduz variação e imprevisibilidade no texto gerado, enquanto que se **do_sample=False** o modelo escolherá sempre a palavra mais provável como próxima palavra, o que pode levar a saídas mais determinísticas e, possivelmente, mais repetitivas.
94
- - **temperature:** afeta a aleatoriedade na escolha da próxima palavra. Um valor baixo (próximo de 0) faz com que o modelo seja mais "confiante" nas suas escolhas, favorecendo palavras com alta probabilidade e levando a saídas mais previsíveis. Por outro lado, um valor alto aumenta a aleatoriedade, permitindo que o modelo escolha palavras menos prováveis, o que pode tornar o texto gerado mais variado e criativo.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
 
2
  language:
3
  - pt
4
+ license: llama2
5
  library_name: transformers
6
  tags:
7
  - llama
8
  - peft
9
  - portuguese
10
  - instruct
11
+ pipeline_tag: text-generation
12
  model-index:
13
  - name: boana-7b-instruct
14
  results:
15
  - task:
16
  type: text-generation
17
  dataset:
 
18
  name: XWinograd (pt)
19
+ type: Muennighoff/xwinograd
20
  config: pt
21
  split: test
22
  metrics:
23
  - type: Accuracy
24
  value: 50.57
25
+ - task:
26
+ type: text-generation
27
+ name: Text Generation
28
+ dataset:
29
+ name: ENEM Challenge (No Images)
30
+ type: eduagarcia/enem_challenge
31
+ split: train
32
+ args:
33
+ num_few_shot: 3
34
+ metrics:
35
+ - type: acc
36
+ value: 21.62
37
+ name: accuracy
38
+ source:
39
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
40
+ name: Open Portuguese LLM Leaderboard
41
+ - task:
42
+ type: text-generation
43
+ name: Text Generation
44
+ dataset:
45
+ name: BLUEX (No Images)
46
+ type: eduagarcia-temp/BLUEX_without_images
47
+ split: train
48
+ args:
49
+ num_few_shot: 3
50
+ metrics:
51
+ - type: acc
52
+ value: 29.21
53
+ name: accuracy
54
+ source:
55
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
56
+ name: Open Portuguese LLM Leaderboard
57
+ - task:
58
+ type: text-generation
59
+ name: Text Generation
60
+ dataset:
61
+ name: OAB Exams
62
+ type: eduagarcia/oab_exams
63
+ split: train
64
+ args:
65
+ num_few_shot: 3
66
+ metrics:
67
+ - type: acc
68
+ value: 27.15
69
+ name: accuracy
70
+ source:
71
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
72
+ name: Open Portuguese LLM Leaderboard
73
+ - task:
74
+ type: text-generation
75
+ name: Text Generation
76
+ dataset:
77
+ name: Assin2 RTE
78
+ type: assin2
79
+ split: test
80
+ args:
81
+ num_few_shot: 15
82
+ metrics:
83
+ - type: f1_macro
84
+ value: 48.84
85
+ name: f1-macro
86
+ source:
87
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
88
+ name: Open Portuguese LLM Leaderboard
89
+ - task:
90
+ type: text-generation
91
+ name: Text Generation
92
+ dataset:
93
+ name: Assin2 STS
94
+ type: eduagarcia/portuguese_benchmark
95
+ split: test
96
+ args:
97
+ num_few_shot: 15
98
+ metrics:
99
+ - type: pearson
100
+ value: 37.56
101
+ name: pearson
102
+ source:
103
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
104
+ name: Open Portuguese LLM Leaderboard
105
+ - task:
106
+ type: text-generation
107
+ name: Text Generation
108
+ dataset:
109
+ name: FaQuAD NLI
110
+ type: ruanchaves/faquad-nli
111
+ split: test
112
+ args:
113
+ num_few_shot: 15
114
+ metrics:
115
+ - type: f1_macro
116
+ value: 43.97
117
+ name: f1-macro
118
+ source:
119
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
120
+ name: Open Portuguese LLM Leaderboard
121
+ - task:
122
+ type: text-generation
123
+ name: Text Generation
124
+ dataset:
125
+ name: HateBR Binary
126
+ type: ruanchaves/hatebr
127
+ split: test
128
+ args:
129
+ num_few_shot: 25
130
+ metrics:
131
+ - type: f1_macro
132
+ value: 85.0
133
+ name: f1-macro
134
+ source:
135
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
136
+ name: Open Portuguese LLM Leaderboard
137
+ - task:
138
+ type: text-generation
139
+ name: Text Generation
140
+ dataset:
141
+ name: PT Hate Speech Binary
142
+ type: hate_speech_portuguese
143
+ split: test
144
+ args:
145
+ num_few_shot: 25
146
+ metrics:
147
+ - type: f1_macro
148
+ value: 67.43
149
+ name: f1-macro
150
+ source:
151
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
152
+ name: Open Portuguese LLM Leaderboard
153
+ - task:
154
+ type: text-generation
155
+ name: Text Generation
156
+ dataset:
157
+ name: tweetSentBR
158
+ type: eduagarcia-temp/tweetsentbr
159
+ split: test
160
+ args:
161
+ num_few_shot: 25
162
+ metrics:
163
+ - type: f1_macro
164
+ value: 40.38
165
+ name: f1-macro
166
+ source:
167
+ url: https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard?query=lrds-code/boana-7b-instruct
168
+ name: Open Portuguese LLM Leaderboard
169
  ---
170
 
171
  <hr>
 
234
 
235
  - **repetition_penalty:** é utilizado para evitar a repetição de palavras ou frases. Quando esse valor é ajustado para ser maior que 1, o modelo tenta diminuir a probabilidade de gerar palavras que já apareceram anteriormente. Basicamente, quanto maior o valor, mais o modelo tenta evitar repetições.
236
  - **do_sample:** determina se o modelo deve ou não amostrar aleatoriamente a próxima palavra com base nas probabilidades calculadas. Portanto, **do_sample=True** introduz variação e imprevisibilidade no texto gerado, enquanto que se **do_sample=False** o modelo escolherá sempre a palavra mais provável como próxima palavra, o que pode levar a saídas mais determinísticas e, possivelmente, mais repetitivas.
237
+ - **temperature:** afeta a aleatoriedade na escolha da próxima palavra. Um valor baixo (próximo de 0) faz com que o modelo seja mais "confiante" nas suas escolhas, favorecendo palavras com alta probabilidade e levando a saídas mais previsíveis. Por outro lado, um valor alto aumenta a aleatoriedade, permitindo que o modelo escolha palavras menos prováveis, o que pode tornar o texto gerado mais variado e criativo.
238
+ # [Open Portuguese LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/eduagarcia/open_pt_llm_leaderboard)
239
+ Detailed results can be found [here](https://huggingface.co/datasets/eduagarcia-temp/llm_pt_leaderboard_raw_results/tree/main/lrds-code/boana-7b-instruct)
240
+
241
+ | Metric | Value |
242
+ |--------------------------|---------|
243
+ |Average |**44.57**|
244
+ |ENEM Challenge (No Images)| 21.62|
245
+ |BLUEX (No Images) | 29.21|
246
+ |OAB Exams | 27.15|
247
+ |Assin2 RTE | 48.84|
248
+ |Assin2 STS | 37.56|
249
+ |FaQuAD NLI | 43.97|
250
+ |HateBR Binary | 85|
251
+ |PT Hate Speech Binary | 67.43|
252
+ |tweetSentBR | 40.38|
253
+