Spaces:

gauravchand11
/

try

Build error

gauravchand11 commited on Apr 6

Commit

23bd434

verified ·

1 Parent(s): 8662527

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ import tempfile
 from typing import Union, Tuple
 import os
 from datetime import datetime, timezone
 # Display current information
 st.sidebar.text(f"Current Time (UTC): {datetime.now(timezone.utc).strftime('%Y-%m-%d %H:%M:%S')}")
@@ -59,6 +60,7 @@ def load_models():
         nllb_tokenizer = AutoTokenizer.from_pretrained(
             "facebook/nllb-200-distilled-600M",
             token=HF_TOKEN,
             trust_remote_code=True
         )
         nllb_model = AutoModelForSeq2SeqLM.from_pretrained(
@@ -189,14 +191,17 @@ def translate_text(text: str, source_lang: str, target_lang: str, nllb_tuple: Tu
     translated_batches = []
     for batch in batches:
         inputs = tokenizer(batch, return_tensors="pt", max_length=512, truncation=True)
         inputs = {k: v.to(model.device) for k, v in inputs.items()}
-        forced_bos_token_id = tokenizer.lang_code_to_id[target_lang]
         outputs = model.generate(
             **inputs,
-            forced_bos_token_id=forced_bos_token_id,
             max_length=512,
             temperature=0.7,
             num_beams=5,

 from typing import Union, Tuple
 import os
 from datetime import datetime, timezone
+import sys
 # Display current information
 st.sidebar.text(f"Current Time (UTC): {datetime.now(timezone.utc).strftime('%Y-%m-%d %H:%M:%S')}")
         nllb_tokenizer = AutoTokenizer.from_pretrained(
             "facebook/nllb-200-distilled-600M",
             token=HF_TOKEN,
+            src_lang="eng_Latn",  # Default source language
             trust_remote_code=True
         )
         nllb_model = AutoModelForSeq2SeqLM.from_pretrained(
     translated_batches = []
     for batch in batches:
+        # Set the source language for the tokenizer
+        tokenizer.src_lang = source_lang
+        # Prepare the input text
         inputs = tokenizer(batch, return_tensors="pt", max_length=512, truncation=True)
         inputs = {k: v.to(model.device) for k, v in inputs.items()}
+        # Generate translation with forced target language
         outputs = model.generate(
             **inputs,
+            forced_bos_token_id=tokenizer.get_lang_id(target_lang),
             max_length=512,
             temperature=0.7,
             num_beams=5,