Spaces:

intelli-zen
/

vad_go

Sleeping

HoneyTian commited on 25 days ago

Commit

8e74df8

•

1 Parent(s): 5d7199c

update

Files changed (2) hide show

main.py CHANGED Viewed

@@ -66,8 +66,8 @@ def run_silero_vad(filename: str, silence_time: float = 0.3, longest_activate: f
     main_logger.info("do silero vad: {}".format(filename))
-    cmd = "vad_bins/silero_vad {}".format(
-        filename
     )
     raw_vad_result = Command.popen(cmd)

     main_logger.info("do silero vad: {}".format(filename))
+    cmd = "vad_bins/silero_vad --filename {} --silence_time {}".format(
+        filename, silence_time
     )
     raw_vad_result = Command.popen(cmd)

silero_vad/main.go CHANGED Viewed

@@ -15,6 +15,7 @@ func main() {
     silenceTimePtr := flag.Float64("silence_time", 0.1, "in the end of each speech chunk wait for min_silence_duration_ms before separating it")
 	speechPadTimePtr := flag.Float64("speech_pad_time", 0.03, "final speech chunks are padded by speech_pad_ms each side")
     sampleRatePtr := flag.Uint64("sample_rate", 8000, "sample rate")
 	flag.Parse()
     var modelPath string = *modelPathPtr
@@ -22,6 +23,7 @@ func main() {
     var silenceTime float32 = float32(*silenceTimePtr)
     var speechPadTime float32 = float32(*speechPadTimePtr)
     var sampleRate int = int(*sampleRatePtr)
 	fmt.Println(filename)
     var silenceTimeMs int = int(silenceTime * 1e3)
@@ -30,7 +32,7 @@ func main() {
 	sd, err := speech.NewDetector(speech.DetectorConfig{
 		ModelPath:            modelPath,
 		SampleRate:           sampleRate,
-		Threshold:            0.5,
 		MinSilenceDurationMs: silenceTimeMs,
 		SpeechPadMs:          speechPadTimeMs,
 	})

     silenceTimePtr := flag.Float64("silence_time", 0.1, "in the end of each speech chunk wait for min_silence_duration_ms before separating it")
 	speechPadTimePtr := flag.Float64("speech_pad_time", 0.03, "final speech chunks are padded by speech_pad_ms each side")
     sampleRatePtr := flag.Uint64("sample_rate", 8000, "sample rate")
+	thresholdPtr := flag.Float64("threshold", 0.5, "Speech threshold. Silero VAD outputs speech probabilities for each audio chunk, probabilities ABOVE this value are considered as SPEECH. It is better to tune this parameter for each dataset separately, but "lazy" 0.5 is pretty good for most datasets.")
 	flag.Parse()
     var modelPath string = *modelPathPtr
     var silenceTime float32 = float32(*silenceTimePtr)
     var speechPadTime float32 = float32(*speechPadTimePtr)
     var sampleRate int = int(*sampleRatePtr)
+    var threshold float32 = float32(*thresholdPtr)
 	fmt.Println(filename)
     var silenceTimeMs int = int(silenceTime * 1e3)
 	sd, err := speech.NewDetector(speech.DetectorConfig{
 		ModelPath:            modelPath,
 		SampleRate:           sampleRate,
+		Threshold:            threshold,
 		MinSilenceDurationMs: silenceTimeMs,
 		SpeechPadMs:          speechPadTimeMs,
 	})