Spaces:

wenet-e2e
/

wespeaker_demo

Running

App Files Files Community

Liangcd commited on Sep 7, 2022

Commit

c6d08a6

•

1 Parent(s): 509d014

[demo] Initialize the first version

Browse files

Files changed (11) hide show

_gitattributes +31 -0
app.py +165 -0
requirements.txt +4 -0
samples/00001_spk1.wav +0 -0
samples/00003_spk2.wav +0 -0
samples/00010_spk2.wav +0 -0
samples/00024_spk1.wav +0 -0
samples/BAC009S0764W0228.wav +0 -0
samples/BAC009S0764W0328.wav +0 -0
samples/BAC009S0913W0133.wav +0 -0
samples/BAC009S0913W0282.wav +0 -0

_gitattributes ADDED Viewed

	@@ -0,0 +1,31 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,165 @@

+# Copyright (c) microsoft
+#               2022 Chengdong Liang (liangchengdong@mail.nwpu.edu.cn)
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#   http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import gradio as gr
+import torchaudio
+import torchaudio.compliance.kaldi as kaldi
+import torch
+import onnxruntime as ort
+from sklearn.metrics.pairwise import cosine_similarity
+STYLE = """
+<link rel="stylesheet" href="https://cdn.jsdelivr.net/npm/bootstrap@5.1.3/dist/css/bootstrap.min.css" integrity="sha256-YvdLHPgkqJ8DVUxjjnGVlMMJtNimJ6dYkowFFvp4kKs=" crossorigin="anonymous">
+"""
+OUTPUT_OK = (STYLE + """
+    <div class="container">
+        <div class="row"><h1 style="text-align: center">The speakers are</h1></div>
+        <div class="row"><h1 class="display-1 text-success" style="text-align: center">{:.1f}%</h1></div>
+        <div class="row"><h1 style="text-align: center">similar</h1></div>
+        <div class="row"><h1 class="text-success" style="text-align: center">Welcome, human!</h1></div>
+        <div class="row"><small style="text-align: center">(You must get at least 50% to be considered the same person)</small><div class="row">
+    </div>
+""")
+OUTPUT_FAIL = (STYLE + """
+    <div class="container">
+        <div class="row"><h1 style="text-align: center">The speakers are</h1></div>
+        <div class="row"><h1 class="display-1 text-danger" style="text-align: center">{:.1f}%</h1></div>
+        <div class="row"><h1 style="text-align: center">similar</h1></div>
+        <div class="row"><h1 class="text-danger" style="text-align: center">You shall not pass!</h1></div>
+        <div class="row"><small style="text-align: center">(You must get at least 50% to be considered the same person)</small><div class="row">
+    </div>
+""")
+OUTPUT_ERROR = (STYLE + """
+    <div class="container">
+        <div class="row"><h1 style="text-align: center">Input Error</h1></div>
+        <div class="row"><h1 class="text-danger" style="text-align: center">{}!</h1></div>
+    </div>
+""")
+def compute_fbank(wav_path,
+                  num_bel_bins=80,
+                  frame_length=25,
+                  frame_shift=10,
+                  dither=0.0,
+                  resample_rate=16000):
+    """ Extract fbank, simlilar to the one in wespeaker.dataset.processor,
+        While integrating the wave reading and CMN.
+    """
+    waveform, sample_rate = torchaudio.load(wav_path)
+    # resample
+    if sample_rate != resample_rate:
+        waveform = torchaudio.transforms.Resample(
+            orig_freq=sample_rate, new_freq=resample_rate)(waveform)
+    waveform = waveform * (1 << 15)
+    mat = kaldi.fbank(waveform,
+                      num_mel_bins=num_bel_bins,
+                      frame_length=frame_length,
+                      frame_shift=frame_shift,
+                      dither=dither,
+                      sample_frequency=sample_rate,
+                      window_type='hamming',
+                      use_energy=False)
+    # CMN, without CVN
+    mat = mat - torch.mean(mat, dim=0)
+    return mat
+class OnnxModel(object):
+    def __init__(self, model_path):
+        so = ort.SessionOptions()
+        so.inter_op_num_threads = 1
+        so.intra_op_num_threads = 1
+        self.session = ort.InferenceSession(model_path, sess_options=so)
+    def extract_embedding(self, wav_path):
+        feats = compute_fbank(wav_path)
+        feats = feats.unsqueeze(0).numpy()
+        embeddings = self.session.run(output_names=['embs'],
+                                      input_feed={'feats': feats})
+        return embeddings[0]
+def speaker_verification(audio_path1, audio_path2, lang='CN'):
+    if audio_path1 == None or audio_path2 == None:
+        output = OUTPUT_ERROR.format('Please enter two audios')
+        return output
+    if lang == 'EN':
+        model = OnnxModel('pre_model/voxceleb_resnet34_LM.onnx')
+    elif lang == 'CN':
+        model = OnnxModel('pre_model/cnceleb_resnet34_LM.onnx')
+    else:
+        output = OUTPUT_ERROR.format('Please select a language')
+        return output
+    emb1 = model.extract_embedding(audio_path1)
+    emb2 = model.extract_embedding(audio_path2)
+    cos_score = cosine_similarity(emb1.reshape(1, -1), emb2.reshape(1,
+                                                                    -1))[0][0]
+    if cos_score >= 0.5:
+        output = OUTPUT_OK.format(cos_score * 100)
+    else:
+        output = OUTPUT_FAIL.format(cos_score * 100)
+    return output
+# input
+inputs = [
+    gr.inputs.Audio(source="microphone",
+                    type="filepath",
+                    optional=True,
+                    label='Speaker#1'),
+    gr.inputs.Audio(source="microphone",
+                    type="filepath",
+                    optional=True,
+                    label='Speaker#2'),
+    gr.Radio(['CN', 'EN'], label='Language'),
+]
+output = gr.outputs.HTML(label="")
+# description
+description = ("WeSpeaker Demo ! Try it with your own voice !")
+article = (
+    "<p style='text-align: center'>"
+    "<a href='https://github.com/wenet-e2e/wespeaker' target='_blank'>Github: Learn more about WeSpeaker</a>"
+    "</p>")
+examples = [
+    ['samples/BAC009S0764W0228.wav', 'samples/BAC009S0764W0328.wav', 'CN'],
+    ['samples/BAC009S0913W0133.wav', 'samples/BAC009S0764W0228.wav', 'CN'],
+    ['samples/00001_spk1.wav', 'samples/00003_spk2.wav', 'EN'],
+    ['samples/00010_spk2.wav', 'samples/00024_spk1.wav', 'EN'],
+    ['samples/00001_spk1.wav', 'samples/00024_spk1.wav', 'EN'],
+    ['samples/00010_spk2.wav', 'samples/00003_spk2.wav', 'EN'],
+]
+interface = gr.Interface(
+    fn=speaker_verification,
+    inputs=inputs,
+    outputs=output,
+    title="Speaker verification in WeSpeaker : 基于 WeSpeaker 的说话人确认",
+    description=description,
+    article=article,
+    examples=examples,
+    theme="huggingface",
+)
+interface.launch(enable_queue=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+onnxruntime==1.11.1
+gradio
+torchaudio
+scikit-learn

samples/00001_spk1.wav ADDED Viewed

Binary file (268 kB). View file

samples/00003_spk2.wav ADDED Viewed

Binary file (129 kB). View file

samples/00010_spk2.wav ADDED Viewed

Binary file (701 kB). View file

samples/00024_spk1.wav ADDED Viewed

Binary file (201 kB). View file

samples/BAC009S0764W0228.wav ADDED Viewed

Binary file (135 kB). View file

samples/BAC009S0764W0328.wav ADDED Viewed

Binary file (124 kB). View file

samples/BAC009S0913W0133.wav ADDED Viewed

Binary file (200 kB). View file

samples/BAC009S0913W0282.wav ADDED Viewed

Binary file (163 kB). View file