Spaces:

ixxan
/

cross-lingual-vqa

Runtime error

App Files Files Community

ixxan commited on Apr 23, 2023

Commit

087ba34

•

1 Parent(s): 7e69a2f

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -15

app.py CHANGED Viewed

@@ -21,26 +21,27 @@ vilt_processor = ViltProcessor.from_pretrained("dandelin/vilt-b32-finetuned-vqa"
 vilt_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 def vilt_vqa(image, question):
-  inputs = vilt_processor(image, question, return_tensors="pt")
-  with torch.no_grad():
-      outputs = vilt_model(**inputs)
-  logits = outputs.logits
-  idx = logits.argmax(-1).item()
-  answer = vilt_model.config.id2label[idx]
-  logger.info("ViLT: " + answer)
-  return answer
 # Load FLAN-T5
 t5_tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
 t5_model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto")
 def flan_t5_complete_sentence(question, answer):
-  input_text = f"A question: {question} An incomplete answer: {answer}. Based on these, answer the question with a complete sentence without extra information."
-  logger.info("T5 input: " + input_text)
-  inputs = t5_tokenizer(input_text, return_tensors="pt")
-  outputs = t5_model.generate(**inputs, max_length=50)
-  result_sentence = t5_tokenizer.batch_decode(outputs, skip_special_tokens=True)
-  return result_sentence
 # Main function
 def vqa_main(image, question):
@@ -48,7 +49,7 @@ def vqa_main(image, question):
     vqa_answer = vilt_vqa(image, en_question)
     llm_answer = flan_t5_complete_sentence(en_question, vqa_answer)[0]
     final_answer, answer_src_lang = google_translate(llm_answer, dest=question_src_lang)
     return final_answer
 # Home page text

 vilt_model = ViltForQuestionAnswering.from_pretrained("dandelin/vilt-b32-finetuned-vqa")
 def vilt_vqa(image, question):
+    inputs = vilt_processor(image, question, return_tensors="pt")
+    with torch.no_grad():
+        outputs = vilt_model(**inputs)
+    logits = outputs.logits
+    idx = logits.argmax(-1).item()
+    answer = vilt_model.config.id2label[idx]
+    logger.info("ViLT: " + answer)
+    return answer
 # Load FLAN-T5
 t5_tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
 t5_model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large", device_map="auto")
 def flan_t5_complete_sentence(question, answer):
+    input_text = f"A question: {question} An incomplete answer: {answer}. Based on these, answer the question with a complete sentence without extra information."
+    logger.info("T5 input: " + input_text)
+    inputs = t5_tokenizer(input_text, return_tensors="pt")
+    outputs = t5_model.generate(**inputs, max_length=50)
+    result_sentence = t5_tokenizer.batch_decode(outputs, skip_special_tokens=True)
+    logger.info("T5 output: " + result_sentence)
+    return result_sentence
 # Main function
 def vqa_main(image, question):
     vqa_answer = vilt_vqa(image, en_question)
     llm_answer = flan_t5_complete_sentence(en_question, vqa_answer)[0]
     final_answer, answer_src_lang = google_translate(llm_answer, dest=question_src_lang)
+    logger.info("Final Answer: " + final_answer)
     return final_answer
 # Home page text