Spaces:

kotoba-speech
/

kotoba-whisper-demo

Running on Zero

App Files Files Community

asahi417 commited on Apr 28

Commit

bda6501

•

1 Parent(s): 9151f3b

add stability ts

Browse files

Files changed (1) hide show

app.py +7 -6

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 import os
 import time
 import tempfile
-from copy import deepcopy
 from math import floor
 from typing import Optional, List, Dict, Any
@@ -162,11 +161,11 @@ def get_prediction(inputs, prompt: Optional[str], punctuate_text: bool = True, s
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
     if prompt:
         generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
-    prediction = pipe(deepcopy(inputs), return_timestamps=True, generate_kwargs=generate_kwargs)
     if stabilize_timestamp:
-        prediction['chunks'] = fix_timestamp(pipeline_output=prediction['chunks'],
-                                             audio=inputs["array"],
-                                             sample_rate=inputs["sampling_rate"])
     if punctuate_text:
         prediction['chunks'] = PUNCTUATOR.punctuate(prediction['chunks'])
     text = "".join([c['text'] for c in prediction['chunks']])
@@ -176,9 +175,11 @@ def get_prediction(inputs, prompt: Optional[str], punctuate_text: bool = True, s
     return text, text_timestamped
-def transcribe(inputs, prompt, punctuate_text, stabilize_timestamp):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
     inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
     return get_prediction(inputs, prompt, punctuate_text, stabilize_timestamp)

 import os
 import time
 import tempfile
 from math import floor
 from typing import Optional, List, Dict, Any
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
     if prompt:
         generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
+    array = inputs["array"]
+    sr = inputs["sampling_rate"]
+    prediction = pipe(inputs, return_timestamps=True, generate_kwargs=generate_kwargs)
     if stabilize_timestamp:
+        prediction['chunks'] = fix_timestamp(pipeline_output=prediction['chunks'], audio=array, sample_rate=sr)
     if punctuate_text:
         prediction['chunks'] = PUNCTUATOR.punctuate(prediction['chunks'])
     text = "".join([c['text'] for c in prediction['chunks']])
     return text, text_timestamped
+def transcribe(inputs: str, prompt, punctuate_text, stabilize_timestamp):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
+    with open(inputs, "rb") as f:
+        inputs = f.read()
     inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
     inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
     return get_prediction(inputs, prompt, punctuate_text, stabilize_timestamp)