Files changed (1) hide show
  1. app.py +23 -0
app.py CHANGED
@@ -131,6 +131,12 @@ def filter_models(
131
 
132
  return filtered_df
133
 
 
 
 
 
 
 
134
 
135
  demo = gr.Blocks(css=custom_css)
136
  with demo:
@@ -238,7 +244,24 @@ with demo:
238
  leaderboard_table,
239
  queue=True,
240
  )
 
 
 
 
 
 
 
 
 
241
 
 
 
 
 
 
 
 
 
242
  with gr.TabItem("πŸ“ About", elem_id="llm-benchmark-tab-table", id=2):
243
  gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
244
 
 
131
 
132
  return filtered_df
133
 
134
+ def get_data_totale():
135
+ dataset = pd.read_csv("leaderboard_general.csv", sep=',')
136
+ if 'model ' in dataset.columns:
137
+ dataset.rename(columns={'model ': 'model'}, inplace=True)
138
+ return dataset
139
+
140
 
141
  demo = gr.Blocks(css=custom_css)
142
  with demo:
 
244
  leaderboard_table,
245
  queue=True,
246
  )
247
+
248
+ with gr.TabItem('Classifica RAG'):
249
+
250
+ gr.Markdown('''# Classifica RAG degli LLM italiani''')
251
+ gr.Markdown(f'''In questa sezione i modelli sono valutati su dei task di Q&A e ordinati per F1 Score e EM (Exact Match). La repo di riferimento Γ¨ [questa](https://github.com/C080/open-llm-ita-leaderboard).
252
+ I modelli in cima alla classifica sono ritenuti preferibili per i task di Retrieval Augmented Generation.''')
253
+ gr.Dataframe(pd.read_csv(csv_filename, sep=';'))
254
+ gr.Markdown(f"Si ringrazia il @galatolo per il codice dell'eval.")
255
+
256
 
257
+ with gr.TabItem('Eval aggiuntive'):
258
+
259
+ gr.Markdown('''# Altre evaluation''')
260
+ gr.Markdown('''Qui ci sono altri test di altri modelli valutati su molte metriche''')
261
+ gr.Dataframe(get_data_totale)
262
+
263
+
264
+
265
  with gr.TabItem("πŸ“ About", elem_id="llm-benchmark-tab-table", id=2):
266
  gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
267