Spaces:

Cicciokr
/

AIGenMaskedFillLatinText

Running

Cicciokr commited on Dec 12, 2024

Commit

ad7b7bc

verified ·

1 Parent(s): 1f69fb9

Add model GPT2 to compare result

Files changed (1) hide show

app.py CHANGED Viewed

@@ -12,19 +12,30 @@ st.write("Inserisci un testo con il token [MASK] per vedere le previsioni del mo
 #dvces et reges carthaginiensivm hanno et mago qui [MASK] punico bello cornelium consulem aput liparas ceperunt
 input_text = st.text_input("Testo:", value="Lorem ipsum dolor sit amet, [MASK] adipiscing elit.")
 #modelname = "./models/latin_bert/"
 #modelname = "LuisAVasquez/simple-latin-bert-uncased"
 modelname = "./models/bert-base-latin-uncased"
 tokenizer = AutoTokenizer.from_pretrained(modelname)
 model = AutoModelForMaskedLM.from_pretrained(modelname)
-# Creare un pipeline di riempimento maschere
 fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
-#fill_mask = pipeline("fill-mask", model=modelname)
 if input_text:
     predictions = fill_mask(input_text)
     st.subheader("Risultati delle previsioni con Simple Latin Bert:")
     for pred in predictions:
         st.write(f"**Parola**: {pred['token_str']}, **Probabilità**: {pred['score']:.4f}, **Sequence**: {pred['sequence']}")

 #dvces et reges carthaginiensivm hanno et mago qui [MASK] punico bello cornelium consulem aput liparas ceperunt
 input_text = st.text_input("Testo:", value="Lorem ipsum dolor sit amet, [MASK] adipiscing elit.")
+# Model based on BERT
 #modelname = "./models/latin_bert/"
 #modelname = "LuisAVasquez/simple-latin-bert-uncased"
 modelname = "./models/bert-base-latin-uncased"
+# Model based on GPT 2
+modelname_gpt = "itserr/scratch_2-nodes_tokenizer_latbert-original_packing_fcocchi"
 tokenizer = AutoTokenizer.from_pretrained(modelname)
 model = AutoModelForMaskedLM.from_pretrained(modelname)
 fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
+#Use GPT 2 to compare with BERT
+tokenizer_gpt = AutoTokenizer.from_pretrained(modelname_gpt)
+model_gpt = AutoModelForMaskedLM.from_pretrained(modelname_gpt)
+fill_mask_gpt = pipeline("fill-mask", model=model_gpt, tokenizer=tokenizer_gpt)
 if input_text:
     predictions = fill_mask(input_text)
     st.subheader("Risultati delle previsioni con Simple Latin Bert:")
     for pred in predictions:
         st.write(f"**Parola**: {pred['token_str']}, **Probabilità**: {pred['score']:.4f}, **Sequence**: {pred['sequence']}")
+    predictions_gpt = fill_mask_gpt(input_text)
+    st.subheader("Risultati delle previsioni con Simple Latin GPT2:")
+    for pred_gpt in predictions_gpt:
+        st.write(f"**Parola**: {pred_gpt['token_str']}, **Probabilità**: {pred_gpt['score']:.4f}, **Sequence**: {pred_gpt['sequence']}")