physicianai-tts-api

Sleeping

App Files Files Community

neuralleap commited on Apr 6

Commit

b42ce6c

•

1 Parent(s): 5eae5c5

Update main.py

Browse files

Files changed (1) hide show

main.py +36 -4

main.py CHANGED Viewed

@@ -5,6 +5,7 @@ from fastapi.middleware.cors import CORSMiddleware
 import os
 import io
 import json
 #import httpcore
 #setattr(httpcore, 'SyncHTTPTransport', 'AsyncHTTPProxy')
@@ -21,6 +22,41 @@ app.add_middleware(
 )
 #text_to_speech bock===========================================================================
@@ -37,10 +73,6 @@ def translate(text,language):
 os.environ["COQUI_TOS_AGREED"] = "1"
 from TTS.api import TTS
-import torch
-from TTS.api import TTS
 # Get device
 device = "cuda" if torch.cuda.is_available() else "cpu"

 import os
 import io
 import json
+import torch
 #import httpcore
 #setattr(httpcore, 'SyncHTTPTransport', 'AsyncHTTPProxy')
 )
+#============speech_to_text=======================================================
+from transformers import pipeline
+from transformers.pipelines.audio_utils import ffmpeg_read
+import tempfile
+import os
+MODEL_NAME = "openai/whisper-base"
+BATCH_SIZE = 8
+FILE_LIMIT_MB = 1000
+YT_LENGTH_LIMIT_S = 3600  # limit to 1 hour YouTube files
+device = 0 if torch.cuda.is_available() else "cpu"
+pipe = pipeline(
+    task="automatic-speech-recognition",
+    model=MODEL_NAME,
+    chunk_length_s=30,
+    device=device,
+)
+@app.post("/speech_to_text_whispher")
+async def speech_to_text_whispher(file: UploadFile = File(...)):
+        file_path = "inputvoice.mp3"
+        with open(file_path, "wb") as f:
+            f.write(file.file.read())
+        #with open(file_path, "rb") as f:
+            #inputs = f.read()
+        #inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
+        #inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
+        text = pipe(file_path, batch_size=BATCH_SIZE, generate_kwargs={"task":"transcribe"}, return_timestamps=True)["text"]
+        return {"transcribe":text}
 #text_to_speech bock===========================================================================
 os.environ["COQUI_TOS_AGREED"] = "1"
 from TTS.api import TTS
 # Get device
 device = "cuda" if torch.cuda.is_available() else "cpu"