Spaces:

kotoba-speech
/

kotoba-whisper-bilingual-demo

Running on Zero

App Files Files Community

asahi417 commited on Sep 29, 2024

Commit

a72cb3f

1 Parent(s): 18fb4f3

fix

Browse files

Files changed (1) hide show

app.py +6 -11

app.py CHANGED Viewed

@@ -10,7 +10,7 @@ from transformers.pipelines.audio_utils import ffmpeg_read
 # configuration
-MODEL_NAME = "japanese-asr/distil-whisper-bilingual-v1.0"
 BATCH_SIZE = 16
 CHUNK_LENGTH_S = 15
 # device setting
@@ -52,9 +52,7 @@ def format_time(start: Optional[float], end: Optional[float]):
 @spaces.GPU
 def get_prediction(inputs, task: str, language: Optional[str]):
-    generate_kwargs = {"task": task}
-    if language:
-        generate_kwargs['language'] = language
     prediction = pipe(inputs, return_timestamps=True, generate_kwargs=generate_kwargs)
     text = "".join([c['text'] for c in prediction['chunks']])
     text_timestamped = "\n".join([
@@ -64,7 +62,6 @@ def get_prediction(inputs, task: str, language: Optional[str]):
 def transcribe(inputs: str, task: str, language: str):
-    language = None if language == "none" else language
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     with open(inputs, "rb") as f:
@@ -83,9 +80,8 @@ mf_transcribe = gr.Interface(
     fn=transcribe,
     inputs=[
         gr.Audio(sources="microphone", type="filepath"),
-        gr.Textbox(lines=1, placeholder="Prompt"),
-        gr.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
-        gr.Radio(["none", "ja", "en"], label="Language", default="none")
     ],
     outputs=["text", "text"],
     title=title,
@@ -96,9 +92,8 @@ file_transcribe = gr.Interface(
     fn=transcribe,
     inputs=[
         gr.Audio(sources="upload", type="filepath", label="Audio file"),
-        gr.Textbox(lines=1, placeholder="Prompt"),
-        gr.Radio(["transcribe", "translate"], label="Task", default="transcribe"),
-        gr.Radio(["none", "ja", "en"], label="Language", default="none")
     ],
     outputs=["text", "text"],
     title=title,

 # configuration
+MODEL_NAME = "kotoba-tech/kotoba-whisper-bilingual-v1.0"
 BATCH_SIZE = 16
 CHUNK_LENGTH_S = 15
 # device setting
 @spaces.GPU
 def get_prediction(inputs, task: str, language: Optional[str]):
+    generate_kwargs = {"task": task, "language": language}
     prediction = pipe(inputs, return_timestamps=True, generate_kwargs=generate_kwargs)
     text = "".join([c['text'] for c in prediction['chunks']])
     text_timestamped = "\n".join([
 def transcribe(inputs: str, task: str, language: str):
     if inputs is None:
         raise gr.Error("No audio file submitted! Please upload or record an audio file before submitting your request.")
     with open(inputs, "rb") as f:
     fn=transcribe,
     inputs=[
         gr.Audio(sources="microphone", type="filepath"),
+        gr.Radio(["transcribe", "translate"], label="Task", value="transcribe"),
+        gr.Radio(["ja", "en"], label="Output Language", value="ja")
     ],
     outputs=["text", "text"],
     title=title,
     fn=transcribe,
     inputs=[
         gr.Audio(sources="upload", type="filepath", label="Audio file"),
+        gr.Radio(["transcribe", "translate"], label="Task", value="transcribe"),
+        gr.Radio(["ja", "en"], label="Output Language", value="ja")
     ],
     outputs=["text", "text"],
     title=title,