Spaces:

somosnlp-hackathon-2022
/

gastronomia_para_to2

Sleeping

App Files Files Community

jucendrero commited on Apr 2, 2022

Commit

20066dd

•

1 Parent(s): 9e46f6d

Second functional version

Browse files

Files changed (1) hide show

app.py +31 -34

app.py CHANGED Viewed

@@ -2,6 +2,8 @@ import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import re
 from resources import banner, error_html_response
 model_checkpoint = 'gastronomia-para-to2/gastronomia_para_to2'
 tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
@@ -71,64 +73,59 @@ def rerun_model_output(pre_output):
     if pre_output is None:
         return True
     elif not '<RECIPE_END>' in pre_output:
-        print('<RECIPE_END> not in pre_output')
         return True
     pre_output_trimmed = pre_output[:pre_output.find('<RECIPE_END>')]
     if not all(special_token in pre_output_trimmed for special_token in special_tokens):
-        print('Not all special tokens are in preoutput')
         return True
     elif not check_special_tokens_order(pre_output_trimmed):
-        print('Special tokens are unordered in preoutput')
         return True
     elif len(pre_output_trimmed.split())<75:
-        print('Length of the recipe is <75')
         return True
     else:
         return False
-def generate_output(tokenized_input):
-    pre_output = None
-    while rerun_model_output(pre_output):
-        output = model.generate(**tokenized_input,
-                                max_length=600,
-                                do_sample=True,
-                                top_p=0.92,
-                                top_k=50,
-                                # no_repeat_ngram_size=2,
-                                num_return_sequences=3)
-        pre_output = tokenizer.decode(output[0], skip_special_tokens=False)
-    pre_output_trimmed = pre_output[:pre_output.find('<RECIPE_END>')]
-    return pre_output_trimmed
 def check_wrong_ingredients(ingredients):
-    if ingredients is None:
-        return True
-    if any(ingredient.startswith('De') for ingredient in ingredients):
-        print('At least one ingredient starts with De')
-        return True
 def make_recipe(input_ingredients):
     input_ingredients = re.sub(' y ', ', ', input_ingredients)
     input = '<RECIPE_START> '
     input += '<INPUT_START> ' + ' <NEXT_INPUT> '.join(input_ingredients.split(', ')) + ' <INPUT_END> '
     input += '<INGR_START> '
     tokenized_input = tokenizer(input, return_tensors='pt')
-    output_ingredients = None
     i = 0
-    while check_wrong_ingredients(output_ingredients):
-        if i == 4:
             return frame_html_response(error_html_response)
-        pre_output_trimmed = generate_output(tokenized_input)
-        output_ingredients = re.search('<INGR_START> (.*) <INGR_END>', pre_output_trimmed).group(1)
-        output_ingredients = output_ingredients.split(' <NEXT_INGR> ')
-        output_ingredients = list(set([output_ingredient.strip() for output_ingredient in output_ingredients]))
-        output_ingredients = [output_ing.capitalize() for output_ing in output_ingredients]
         i += 1
     output_title = re.search('<TITLE_START> (.*) <TITLE_END>', pre_output_trimmed).group(1).strip().capitalize()
     output_instructions = re.search('<INSTR_START> (.*) <INSTR_END>', pre_output_trimmed).group(1)
     output_instructions = output_instructions.split(' <NEXT_INSTR> ')

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import re
 from resources import banner, error_html_response
+import logging
+logging.basicConfig(format='%(asctime)s: [%(levelname)s]: %(message)s', level=logging.INFO)
 model_checkpoint = 'gastronomia-para-to2/gastronomia_para_to2'
 tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
     if pre_output is None:
         return True
     elif not '<RECIPE_END>' in pre_output:
+        logging.info('<RECIPE_END> not in pre_output')
         return True
     pre_output_trimmed = pre_output[:pre_output.find('<RECIPE_END>')]
     if not all(special_token in pre_output_trimmed for special_token in special_tokens):
+        logging.info('Not all special tokens are in preoutput')
         return True
     elif not check_special_tokens_order(pre_output_trimmed):
+        logging.info('Special tokens are unordered in preoutput')
         return True
     elif len(pre_output_trimmed.split())<75:
+        logging.info('Length of the recipe is <75')
         return True
     else:
         return False
 def check_wrong_ingredients(ingredients):
+    new_ingredients = []
+    for ingredient in ingredients:
+        if ingredient.startswith('De '):
+            new_ingredients.append(ingredient.strip('De ').capitalize())
+        else:
+            new_ingredients.append(ingredient)
+    return new_ingredients
 def make_recipe(input_ingredients):
+    logging.info(f'Received inputs: {input_ingredients}')
     input_ingredients = re.sub(' y ', ', ', input_ingredients)
     input = '<RECIPE_START> '
     input += '<INPUT_START> ' + ' <NEXT_INPUT> '.join(input_ingredients.split(', ')) + ' <INPUT_END> '
     input += '<INGR_START> '
     tokenized_input = tokenizer(input, return_tensors='pt')
+    pre_output = None
     i = 0
+    while rerun_model_output(pre_output):
+        if i == 3:
             return frame_html_response(error_html_response)
+        output = model.generate(**tokenized_input,
+                                max_length=600,
+                                do_sample=True,
+                                top_p=0.92,
+                                top_k=50,
+                                # no_repeat_ngram_size=3,
+                                num_return_sequences=3)
+        pre_output = tokenizer.decode(output[0], skip_special_tokens=False)
         i += 1
+    pre_output_trimmed = pre_output[:pre_output.find('<RECIPE_END>')]
+    output_ingredients = re.search('<INGR_START> (.*) <INGR_END>', pre_output_trimmed).group(1)
+    output_ingredients = output_ingredients.split(' <NEXT_INGR> ')
+    output_ingredients = list(set([output_ingredient.strip() for output_ingredient in output_ingredients]))
+    output_ingredients = [output_ing.capitalize() for output_ing in output_ingredients]
+    output_ingredients = check_wrong_ingredients(output_ingredients)
     output_title = re.search('<TITLE_START> (.*) <TITLE_END>', pre_output_trimmed).group(1).strip().capitalize()
     output_instructions = re.search('<INSTR_START> (.*) <INSTR_END>', pre_output_trimmed).group(1)
     output_instructions = output_instructions.split(' <NEXT_INSTR> ')