Spaces:

somosnlp-hackathon-2023
/

PodcastNER-GPTJ

Sleeping

App Files Files Community

DavidFM43 commited on Jul 6, 2023

Commit

4ca3c57

•

1 Parent(s): c62748c

no gpu :(

Browse files

Files changed (3) hide show

app.py +25 -59
article.txt +36 -0
requirements.txt +1 -2

app.py CHANGED Viewed

@@ -1,34 +1,35 @@
 import gradio as gr
-import torch
-from peft import PeftModel, PeftConfig
-from transformers import AutoModelForCausalLM, AutoTokenizer
-peft_model_id = "hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es"
-config = PeftConfig.from_pretrained(peft_model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    "DavidFM43/bertin-gpt-j-6b-half-sharded",
-    return_dict=True,
-    load_in_8bit=True,
-    device_map="auto",
-)
-tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
-# load the Lora model
-model = PeftModel.from_pretrained(model, peft_model_id)
-model.eval()
 def gen_entities(text):
     """Does Named Entity Recognition in the given text."""
-    text = f"<SP> text: {text}\n\n entities:"
-    batch = tokenizer(text, return_tensors="pt")
-    batch["input_ids"] = batch["input_ids"].to("cuda")
-    with torch.cuda.amp.autocast():
-        output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)
-    response = tokenizer.batch_decode(output_tokens.detach().cpu().numpy(), skip_special_tokens=False)[0]
-    return response[response.find("entities") : response.find("<EP>")]
 iface = gr.Interface(
@@ -47,41 +48,6 @@ iface = gr.Interface(
         "El viaje de Chihiro es una película de animación japonesa estrenada "
         " el 20 de julio de 2001. Fue dirigida por Hayao Miyazaki y producida en el Studio Ghibli",
     ],
-    article="""
-## Motivación
-Los podcasts son una increíble fuente de información e inspiración. Los escuchamos de camino al trabajo, mientras practicamos deportes o cocinando nuestra receta favorita. No obstante, puede ser complicado retener ciertos hechos específicos, fechas o personajes que mencionan en ellos. El objetivo de este proyecto ha sido explorar cómo podemos capturar toda esta información usando ‘named-entity recognition’.
-En vez de usar un modelo de lenguaje fine-tuned con una head específica para NER, hemos replanteado el problema como una tarea de generación de texto a partir de un prompt del tipo:
-```
-text: Yo hoy voy a hablar de mujeres en el mundo del arte, porque he leído un libro fantástico que se llama Historia del arte sin hombres, de Katie Hesel.\nentities: (people, Katie Hesel), (books, Historia del arte sin hombres)
-```
-Al hacer fine-tuning a un LLM con este prompt, hemos podido capturar las entidades mencionadas en el podcast. Hicimos fine-tuning al modelo [bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) siguiendo esta estrategia.
-## Model
-Este modelo es una vesion fine-tuned para la tarea de named-entity recognition del LLM fundacional en español [bertin-project/bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) checkpoint.  Este modelo fue desarrollado durante la Hackathon de 2023 organizada por SomosNLP con las GPUs RTX 3090 provisionadas por Q Blocks.
-Link del modelo: [hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es](https://huggingface.co/hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es)
-## Dataset
-Link del dataset: [hackathon-somos-nlp-2023/podcasts-ner-es](https://huggingface.co/datasets/hackathon-somos-nlp-2023/podcasts-ner-es)
-## Team members
-[David Mora](https://huggingface.co/DavidFM43)
-[Sergio Perez](https://huggingface.co/sergiopperez)
-[Albeto Fernandez](https://huggingface.co/AlbertoFH98)
-""",
 )
 iface.launch()

 import gradio as gr
+# import torch
+# from peft import PeftModel, PeftConfig
+# from transformers import AutoModelForCausalLM, AutoTokenizer
+# peft_model_id = "hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es"
+# config = PeftConfig.from_pretrained(peft_model_id)
+# model = AutoModelForCausalLM.from_pretrained(
+#     "DavidFM43/bertin-gpt-j-6b-half-sharded",
+#     return_dict=True,
+#     load_in_8bit=True,
+#     device_map="auto",
+# )
+# tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
+# # load the Lora model
+# model = PeftModel.from_pretrained(model, peft_model_id)
+# model.eval()
 def gen_entities(text):
     """Does Named Entity Recognition in the given text."""
+    # text = f"<SP> text: {text}\n\n entities:"
+    # batch = tokenizer(text, return_tensors="pt")
+    # batch["input_ids"] = batch["input_ids"].to("cuda")
+    # with torch.cuda.amp.autocast():
+    #     output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)
+    # response = tokenizer.batch_decode(output_tokens.detach().cpu().numpy(), skip_special_tokens=False)[0]
+    # return response[response.find("entities") : response.find("<EP>")]
+    return ""
 iface = gr.Interface(
         "El viaje de Chihiro es una película de animación japonesa estrenada "
         " el 20 de julio de 2001. Fue dirigida por Hayao Miyazaki y producida en el Studio Ghibli",
     ],
+    article=open("article.txt").read(),
 )
 iface.launch()

article.txt ADDED Viewed

	@@ -0,0 +1,36 @@

+**Nota: El grant de GPU de la Hackathon fue removido y por lo tanto el space no esta disponible.**
+## Motivación
+Los podcasts son una increíble fuente de información e inspiración. Los escuchamos de camino al trabajo, mientras practicamos deportes o cocinando nuestra receta favorita. No obstante, puede ser complicado retener ciertos hechos específicos, fechas o personajes que mencionan en ellos. El objetivo de este proyecto ha sido explorar cómo podemos capturar toda esta información usando ‘named-entity recognition’.
+En vez de usar un modelo de lenguaje fine-tuned con una head específica para NER, hemos replanteado el problema como una tarea de generación de texto a partir de un prompt del tipo:
+```
+text: Yo hoy voy a hablar de mujeres en el mundo del arte, porque he leído un libro fantástico que se llama Historia del arte sin hombres, de Katie Hesel.\nentities: (people, Katie Hesel), (books, Historia del arte sin hombres)
+```
+Al hacer fine-tuning a un LLM con este prompt, hemos podido capturar las entidades mencionadas en el podcast. Hicimos fine-tuning al modelo [bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) siguiendo esta estrategia.
+## Model
+Este modelo es una vesion fine-tuned para la tarea de named-entity recognition del LLM fundacional en español [bertin-project/bertin-gpt-j-6B](https://huggingface.co/bertin-project/bertin-gpt-j-6B) checkpoint.  Este modelo fue desarrollado durante la Hackathon de 2023 organizada por SomosNLP con las GPUs RTX 3090 provisionadas por Q Blocks.
+Link del modelo: [hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es](https://huggingface.co/hackathon-somos-nlp-2023/bertin-gpt-j-6b-ner-es)
+## Dataset
+Link del dataset: [hackathon-somos-nlp-2023/podcasts-ner-es](https://huggingface.co/datasets/hackathon-somos-nlp-2023/podcasts-ner-es)
+## Team members
+[David Mora](https://huggingface.co/DavidFM43)
+[Sergio Perez](https://huggingface.co/sergiopperez)
+[Albeto Fernandez](https://huggingface.co/AlbertoFH98)

requirements.txt CHANGED Viewed

@@ -4,5 +4,4 @@ transformers==4.30.2
 torch==2.0.0
 bitsandbytes==0.39.1
 loralib==0.1.1
-accelerate==0.20.3
-scipy==1.9.3

 torch==2.0.0
 bitsandbytes==0.39.1
 loralib==0.1.1
+accelerate==0.20.3