Spaces:

zeimoto
/

voicelead

Runtime error

@@ -3,55 +3,76 @@ import json
 from nameder import init_model_ner, get_entity_results
 from speech2text import init_model_trans, transcribe
 from translation import translate
-from resources import NER_Response, NER_Request, entity_labels_sample, set_start, audit_elapsedtime
 def translation_to_english(text: str):
    resultado = translate(text)
    return resultado
-def transcription(audio: bytes):
     s2t = init_model_trans()
-    return transcribe(audio, s2t)
-def named_entity_recognition(text: str):
-    tokenizer, ner = init_model_ner()
-    # print('NER:',ner)
     result = get_entity_results(entities_list=entity_labels_sample,
                                 model=ner,
-                                tokenizer=tokenizer,
-                                text=text)
     print('result:',result,type(result))
-    return result
-def get_lead(audio: bytes):
     start = set_start()
-    transcribe = transcription(audio)
-    translate = translation_to_english(transcribe)
     ner = named_entity_recognition(NER_Request(
-        entities=entity_labels_sample,
-        text=translate
     ))
     audit_elapsedtime("VoiceLead", start)
     return ner
-audio_input = gr.Microphone(
     label="Record your audio"
 )
 text_output = gr.Textbox(
             label="Labels",
             info="",
             lines=9,
             value=""
         )
-demo = gr.Interface(
-    fn=named_entity_recognition,
-    description= "Get the ",
-    inputs=[audio_input],
     outputs=[text_output],
     title="VoiceLead"
 )
 if __name__ == "__main__":
-    demo.launch()

 from nameder import init_model_ner, get_entity_results
 from speech2text import init_model_trans, transcribe
 from translation import translate
+from resources import NER_Request, entity_labels_sample, set_start, audit_elapsedtime
+import ast
+import numpy as np
 def translation_to_english(text: str):
    resultado = translate(text)
    return resultado
+def transcription(audio):
     s2t = init_model_trans()
+    sr, y = audio
+    y = y.astype(np.float32)
+    y /= np.max(np.abs(y))
+    return transcribe({"sampling_rate": sr, "raw": y}, s2t)
+def named_entity_recognition(req: NER_Request):
+    ner = init_model_ner()
     result = get_entity_results(entities_list=entity_labels_sample,
                                 model=ner,
+                                text=req.text)
     print('result:',result,type(result))
+    return json.dumps(result)
+def get_lead(audio: bytes, labels: str, input_text: str):
+    print("audio",audio,type(audio))
+    print("input text:",input_text)
+    print("labels:2",labels)
     start = set_start()
+    labels_list = ast.literal_eval(labels)
+    if audio == None:
+        text = input_text
+    else:
+        transcribe = transcription(audio)
+        text = transcribe#translate = translation_to_english(transcribe)
+        lead_input.value = text
     ner = named_entity_recognition(NER_Request(
+        entities=labels_list,
+        text=text
     ))
     audit_elapsedtime("VoiceLead", start)
     return ner
+audio_input = gr.Audio(
     label="Record your audio"
 )
+labels_input = gr.Textbox(
+    label="Labels",
+    info="Choose your labels",
+    value=entity_labels_sample
+)
+lead_input = gr.Textbox(
+            label="Lead",
+            info="[Optional] Input your lead",
+            lines=9,
+            value="I have a lead that Salesforce needs 3 developers for 600 euros a day, for 6 months"
+        )
 text_output = gr.Textbox(
             label="Labels",
             info="",
             lines=9,
             value=""
         )
+ui = gr.Interface(
+    fn=get_lead,
+    description= "Voice your lead",
+    inputs=[audio_input, labels_input, lead_input],
     outputs=[text_output],
     title="VoiceLead"
 )
 if __name__ == "__main__":
+    ui.launch(share=True)

flagged/log.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ Record your audio,Labels,Lead,Labels,flag,username,timestamp
2	+ ,"['team', 'developer', 'technology', 'tool', 'amount', 'duration', 'capacity', 'company', 'currency']","I have a lead that Salesforce needs 3 developers for 600 euros a day, for 6 months","{""team"": """", ""developer"": ""3 developers"", ""technology"": """", ""tool"": """", ""amount"": """", ""duration"": ""6 months"", ""capacity"": """", ""company"": ""Salesforce"", ""currency"": ""600 euros""}",,,2024-05-08 12:26:24.114688

nameder.py CHANGED Viewed

@@ -2,12 +2,37 @@ from typing import List
 from resources import set_start, audit_elapsedtime, entities_list_to_dict
 from transformers import BertTokenizer, BertForTokenClassification
 import torch
 #Named-Entity Recognition model
 def init_model_ner():
     print("Initiating NER model...")
     start = set_start()
     # Load pre-trained tokenizer and model
     tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
@@ -16,33 +41,38 @@ def init_model_ner():
     audit_elapsedtime(function="Initiating NER model", start=start)
     return tokenizer, model
-def get_entity_results(tokenizer, model, text: str, entities_list: List[str]): #-> Lead_labels:
     print("Initiating entity recognition...")
     start = set_start()
     tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
-    labels = entities_list
     # Convert tokens to IDs
     input_ids = tokenizer.encode(text, return_tensors="pt")
     # Perform NER prediction
     with torch.no_grad():
         outputs = model(input_ids)
     # Get the predicted labels
     predicted_labels = torch.argmax(outputs.logits, dim=2)[0]
     # Map predicted labels to actual entities
     entities = []
     current_entity = ""
     for i, label_id in enumerate(predicted_labels):
         label = model.config.id2label[label_id.item()]
         token = tokens[i]
         if label.startswith('B-'):  # Beginning of a new entity
             if current_entity:
                 entities.append(current_entity.strip())
             current_entity = token
         elif label.startswith('I-'):  # Inside of an entity
             current_entity += " " + token
         else:  # Outside of any entity
             if current_entity:
@@ -51,6 +81,7 @@ def get_entity_results(tokenizer, model, text: str, entities_list: List[str]): #
     # Filter out only the entities you are interested in
     filtered_entities = [entity for entity in entities if entity in labels]
     # entities_result = model.predict_entities(text, labels)
     # entities_dict = entities_list_to_dict(entities_list)

 from resources import set_start, audit_elapsedtime, entities_list_to_dict
 from transformers import BertTokenizer, BertForTokenClassification
 import torch
+from gliner import GLiNER
 #Named-Entity Recognition model
 def init_model_ner():
     print("Initiating NER model...")
     start = set_start()
+    model = GLiNER.from_pretrained("urchade/gliner_multi")
+    audit_elapsedtime(function="Initiating NER model", start=start)
+    return model
+def get_entity_results(model: GLiNER, text: str, entities_list: List[str]): #-> Lead_labels:
+    print("Initiating entity recognition...")
+    start = set_start()
+    labels = entities_list
+    entities_result = model.predict_entities(text, labels)
+    entities_dict = entities_list_to_dict(entities_list)
+    for entity in entities_result:
+        print(entity["label"], "=>", entity["text"])
+        entities_dict[entity["label"]] = entity["text"]
+    audit_elapsedtime(function="Retreiving entity labels from text", start=start)
+    return entities_dict
+def init_model_ner_v2():
+    print("Initiating NER model...")
+    start = set_start()
     # Load pre-trained tokenizer and model
     tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
     audit_elapsedtime(function="Initiating NER model", start=start)
     return tokenizer, model
+def get_entity_results_v2(tokenizer, model, text: str, entities_list: List[str]): #-> Lead_labels:
     print("Initiating entity recognition...")
     start = set_start()
     tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(text)))
+    labels = entities_list#["Apple Inc.", "American", "Cupertino", "California"]#entities_list
+    print("tokens line 24:",tokens)
     # Convert tokens to IDs
     input_ids = tokenizer.encode(text, return_tensors="pt")
+    print("input_ids line 27:",input_ids)
     # Perform NER prediction
     with torch.no_grad():
         outputs = model(input_ids)
+        print("outputs line 31:",outputs)
     # Get the predicted labels
     predicted_labels = torch.argmax(outputs.logits, dim=2)[0]
+    print("predicted_labels line 35:",predicted_labels)
     # Map predicted labels to actual entities
     entities = []
     current_entity = ""
     for i, label_id in enumerate(predicted_labels):
         label = model.config.id2label[label_id.item()]
+        print(f"i[{i}], label[{label}], label_id[{label_id}]")
         token = tokens[i]
         if label.startswith('B-'):  # Beginning of a new entity
+            print(token)
             if current_entity:
                 entities.append(current_entity.strip())
             current_entity = token
         elif label.startswith('I-'):  # Inside of an entity
+            print(token)
             current_entity += " " + token
         else:  # Outside of any entity
             if current_entity:
     # Filter out only the entities you are interested in
     filtered_entities = [entity for entity in entities if entity in labels]
+    print("filtered_entities line 56:",filtered_entities)
     # entities_result = model.predict_entities(text, labels)
     # entities_dict = entities_list_to_dict(entities_list)

requirements.txt CHANGED Viewed

@@ -1,21 +1,33 @@
 aiofiles==23.2.1
 altair==5.3.0
 annotated-types==0.6.0
 anyio==4.3.0
 attrs==23.2.0
 certifi==2024.2.2
 charset-normalizer==3.3.2
 click==8.1.7
 contourpy==1.2.1
 cycler==0.12.1
 dnspython==2.6.1
 email_validator==2.1.1
 fastapi==0.111.0
 fastapi-cli==0.0.2
 ffmpy==0.3.2
 filelock==3.14.0
 fonttools==4.51.0
 fsspec==2024.3.1
 gradio==4.29.0
 gradio_client==0.16.1
 h11==0.14.0
@@ -25,14 +37,21 @@ httpx==0.27.0
 huggingface-hub==0.23.0
 idna==3.7
 importlib_resources==6.4.0
 Jinja2==3.1.4
 jsonschema==4.22.0
 jsonschema-specifications==2023.12.1
 kiwisolver==1.4.5
 markdown-it-py==3.0.0
 MarkupSafe==2.1.5
 matplotlib==3.8.4
 mdurl==0.1.2
 mpmath==1.3.0
 networkx==3.3
 numpy==1.26.4
@@ -40,14 +59,19 @@ orjson==3.10.3
 packaging==24.0
 pandas==2.2.2
 pillow==10.3.0
 pydantic==2.7.1
 pydantic_core==2.18.2
 pydub==0.25.1
 Pygments==2.18.0
 pyparsing==3.1.2
 python-dateutil==2.9.0.post0
 python-dotenv==1.0.1
 python-multipart==0.0.9
 pytz==2024.1
 PyYAML==6.0.1
 referencing==0.35.1
@@ -56,25 +80,42 @@ requests==2.31.0
 rich==13.7.1
 rpds-py==0.18.1
 ruff==0.4.3
 safetensors==0.4.3
 semantic-version==2.10.0
 shellingham==1.5.4
 six==1.16.0
 sniffio==1.3.1
 starlette==0.37.2
 sympy==1.12
 tokenizers==0.19.1
 tomlkit==0.12.0
 toolz==0.12.1
 torch==2.3.0
 tqdm==4.66.4
 transformers==4.40.2
 typer==0.12.3
 typing_extensions==4.11.0
 tzdata==2024.1
 ujson==5.9.0
-urllib3==2.2.1
 uvicorn==0.29.0
 uvloop==0.19.0
 watchfiles==0.21.0
 websockets==11.0.3

+accelerate==0.30.0
 aiofiles==23.2.1
 altair==5.3.0
 annotated-types==0.6.0
 anyio==4.3.0
 attrs==23.2.0
+beautifulsoup4==4.12.3
+boto3==1.34.100
+botocore==1.34.100
+bpemb==0.3.5
 certifi==2024.2.2
 charset-normalizer==3.3.2
 click==8.1.7
+conllu==4.5.3
 contourpy==1.2.1
 cycler==0.12.1
+Deprecated==1.2.14
 dnspython==2.6.1
 email_validator==2.1.1
 fastapi==0.111.0
 fastapi-cli==0.0.2
 ffmpy==0.3.2
 filelock==3.14.0
+flair==0.13.1
 fonttools==4.51.0
 fsspec==2024.3.1
+ftfy==6.2.0
+gdown==5.1.0
+gensim==4.3.2
+gliner==0.1.12
 gradio==4.29.0
 gradio_client==0.16.1
 h11==0.14.0
 huggingface-hub==0.23.0
 idna==3.7
 importlib_resources==6.4.0
+Janome==0.5.0
 Jinja2==3.1.4
+jmespath==1.0.1
+joblib==1.4.2
 jsonschema==4.22.0
 jsonschema-specifications==2023.12.1
 kiwisolver==1.4.5
+langdetect==1.0.9
+lxml==5.2.1
 markdown-it-py==3.0.0
 MarkupSafe==2.1.5
 matplotlib==3.8.4
 mdurl==0.1.2
+more-itertools==10.2.0
+mpld3==0.5.10
 mpmath==1.3.0
 networkx==3.3
 numpy==1.26.4
 packaging==24.0
 pandas==2.2.2
 pillow==10.3.0
+pptree==3.1
+protobuf==5.26.1
+psutil==5.9.8
 pydantic==2.7.1
 pydantic_core==2.18.2
 pydub==0.25.1
 Pygments==2.18.0
 pyparsing==3.1.2
+PySocks==1.7.1
 python-dateutil==2.9.0.post0
 python-dotenv==1.0.1
 python-multipart==0.0.9
+pytorch_revgrad==0.2.0
 pytz==2024.1
 PyYAML==6.0.1
 referencing==0.35.1
 rich==13.7.1
 rpds-py==0.18.1
 ruff==0.4.3
+s3transfer==0.10.1
 safetensors==0.4.3
+scikit-learn==1.4.2
+scipy==1.12.0
+segtok==1.5.11
 semantic-version==2.10.0
+semver==3.0.2
+sentencepiece==0.2.0
+seqeval==1.2.2
 shellingham==1.5.4
 six==1.16.0
+smart-open==7.0.4
 sniffio==1.3.1
+soupsieve==2.5
+sqlitedict==2.1.0
 starlette==0.37.2
 sympy==1.12
+tabulate==0.9.0
+threadpoolctl==3.5.0
 tokenizers==0.19.1
 tomlkit==0.12.0
 toolz==0.12.1
 torch==2.3.0
+torchaudio==2.3.0
 tqdm==4.66.4
+transformer-smaller-training-vocab==0.4.0
 transformers==4.40.2
 typer==0.12.3
 typing_extensions==4.11.0
 tzdata==2024.1
 ujson==5.9.0
+urllib3==1.26.18
 uvicorn==0.29.0
 uvloop==0.19.0
 watchfiles==0.21.0
+wcwidth==0.2.13
 websockets==11.0.3
+Wikipedia-API==0.6.0
+wrapt==1.16.0

resources.py CHANGED Viewed

@@ -27,7 +27,7 @@ entity_labels_sample = [
 ]
 def entities_list_to_dict(entitiesList: List[str]):
-    return {key: 'string' for key in entitiesList}
 def set_start () -> time:
     return time.time()

 ]
 def entities_list_to_dict(entitiesList: List[str]):
+    return {key: '' for key in entitiesList}
 def set_start () -> time:
     return time.time()

speech2text.py CHANGED Viewed

@@ -36,7 +36,7 @@ def init_model_trans ():
     audit_elapsedtime(function="Init transc model", start=start)
     return pipe
-def transcribe (audio_sample: bytes, pipe) -> str:
     print("Initiating transcription...")
     start = set_start()
     result = pipe(audio_sample)

     audit_elapsedtime(function="Init transc model", start=start)
     return pipe
+def transcribe (audio_sample, pipe) -> str:
     print("Initiating transcription...")
     start = set_start()
     result = pipe(audio_sample)