Spaces:

camparchimedes
/

nb

Running

App Files Files

camparchimedes commited on Aug 9, 2024

Commit

badcd8d

verified ·

1 Parent(s): 49351f8

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -4

app.py CHANGED Viewed

@@ -65,11 +65,20 @@ def convert_to_wav(audio_file):
     return wav_file
-# @spaces.GPU(duration=300, queue=False)
-# Set distinct pad and eos tokens
 if processor.tokenizer.pad_token_id is None:
-    processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id + 1
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
     if audio_file.endswith(".m4a"):
@@ -84,18 +93,21 @@ def transcribe_audio(audio_file, batch_size=4):
         batch_chunks = chunks[i:i + batch_size]
         inputs = processor(batch_chunks, sampling_rate=16000, return_tensors="pt", padding=True)
         inputs = inputs.to(device)
         attention_mask = inputs.attention_mask.to(device) if 'attention_mask' in inputs else None
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
                 max_length=2048,
                 num_beams=8,
-                # task="transcribe",
                 attention_mask=attention_mask,
                 language="no",
                 pad_token_id=processor.tokenizer.pad_token_id,
                 eos_token_id=processor.tokenizer.eos_token_id
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
     end_time = time.time()
@@ -107,6 +119,8 @@ def transcribe_audio(audio_file, batch_size=4):
     return transcription.strip(), result
 # Graph-based summarization|TextRank
 def summarize_text(text):
     sentences = sent_tokenize(text)

     return wav_file
+# @spaces.GPU(duration=120, queue=False)
+# Configure tokenizer to have distinct pad_token_id and eos_token_id
 if processor.tokenizer.pad_token_id is None:
+    # Setting pad_token_id explicitly to ensure distinction from eos_token_id
+    processor.tokenizer.pad_token_id = processor.tokenizer.eos_token_id + 1
+    # Sanity check to confirm distinct pad and eos tokens
+    assert processor.tokenizer.pad_token_id != processor.tokenizer.eos_token_id, \
+        "pad_token_id and eos_token_id must be distinct!"
+# Proceed with the transcription function
 def transcribe_audio(audio_file, batch_size=4):
     start_time = time.time()
     if audio_file.endswith(".m4a"):
         batch_chunks = chunks[i:i + batch_size]
         inputs = processor(batch_chunks, sampling_rate=16000, return_tensors="pt", padding=True)
         inputs = inputs.to(device)
         attention_mask = inputs.attention_mask.to(device) if 'attention_mask' in inputs else None
         with torch.no_grad():
             output = model.generate(
                 inputs.input_features,
                 max_length=2048,
                 num_beams=8,
+                task="transcribe",
                 attention_mask=attention_mask,
                 language="no",
                 pad_token_id=processor.tokenizer.pad_token_id,
                 eos_token_id=processor.tokenizer.eos_token_id
             )
         transcription += " ".join(processor.batch_decode(output, skip_special_tokens=True)) + " "
     end_time = time.time()
     return transcription.strip(), result
 # Graph-based summarization|TextRank
 def summarize_text(text):
     sentences = sent_tokenize(text)