Spaces:

langtech-innovation
/

WhisperLiveKit

Paused

fujii commited on Feb 20, 2024

Commit

24926c9

1 Parent(s): db8b7d2

specify audio dtype

Files changed (2) hide show

whisper_online.py CHANGED Viewed

@@ -11,7 +11,7 @@ import math
 @lru_cache
 def load_audio(fname):
     a, _ = librosa.load(fname, sr=16000)
-    return a
 def load_audio_chunk(fname, beg, end):
     audio = load_audio(fname)

 @lru_cache
 def load_audio(fname):
     a, _ = librosa.load(fname, sr=16000)
+    return a.astype('float32')
 def load_audio_chunk(fname, beg, end):
     audio = load_audio(fname)

whisper_online_server.py CHANGED Viewed

@@ -138,7 +138,7 @@ class ServerProcessor:
                 break
             sf = soundfile.SoundFile(io.BytesIO(raw_bytes), channels=1,endian="LITTLE",samplerate=SAMPLING_RATE, subtype="PCM_16",format="RAW")
             audio, _ = librosa.load(sf,sr=SAMPLING_RATE)
-            out.append(audio)
         if not out:
             return None
         return np.concatenate(out)

                 break
             sf = soundfile.SoundFile(io.BytesIO(raw_bytes), channels=1,endian="LITTLE",samplerate=SAMPLING_RATE, subtype="PCM_16",format="RAW")
             audio, _ = librosa.load(sf,sr=SAMPLING_RATE)
+            out.append(audio.astype('float32'))
         if not out:
             return None
         return np.concatenate(out)