freq = 16000

Files changed (4) hide show

audiocraft/audiogen.py CHANGED Viewed

@@ -87,7 +87,7 @@ class AudioGen(BaseGenModel):
     def set_generation_params(self, use_sampling: bool = True, top_k: int = 250,
                               top_p: float = 0.0, temperature: float = 1.0,
-                              duration: float = 10.0, cfg_coef: float = 3.0,
                               two_step_cfg: bool = False, extend_stride: float = 2):
         """Set the generation parameters for AudioGen.

     def set_generation_params(self, use_sampling: bool = True, top_k: int = 250,
                               top_p: float = 0.0, temperature: float = 1.0,
+                              duration: float = 10.0, cfg_coef: float = 2.4,
                               two_step_cfg: bool = False, extend_stride: float = 2):
         """Set the generation parameters for AudioGen.

live_api.py CHANGED Viewed

@@ -14,7 +14,7 @@ from pathlib import Path
 from types import SimpleNamespace
 from flask import Flask, request, send_from_directory
 from flask_cors import CORS
-from audiocraft.audiogen import AudioGen, audio_write
 sound_generator = AudioGen.get_pretrained('facebook/audiogen-medium')
 sound_generator.set_generation_params(duration=4)
@@ -46,16 +46,20 @@ Path(CACHE_DIR).mkdir(parents=True, exist_ok=True)
 def tts_multi_sentence(scene=None):
-    if scene is not None:
-        sound_background = sound_generator.generate([scene])[0]
-        sound_background = audio_write(None,
-                                       sound_background.cpu(),
-                                       24000,  # Same as styleTTs sample_rate,
-                                       strategy="loudness",
-                                       loudness_compressor=True).detach().cpu().numpy()[0, :]
     else:
-        sound_background = None
     # # StyleTTS2
     # if ('en_US/' in voice) or ('en_UK/' in voice) or (voice is None):
@@ -72,7 +76,7 @@ def tts_multi_sentence(scene=None):
     #     return overlay(x, sound_background)
-    return sound_background
@@ -109,9 +113,9 @@ def serve_wav():
     x = tts_multi_sentence(args.scene)
-    # print('\n\n\n\n Obtai TTS output shape', x.shape)
     OUT_FILE = 'tmp.wav'
-    soundfile.write(CACHE_DIR + OUT_FILE, x, 24000)

 from types import SimpleNamespace
 from flask import Flask, request, send_from_directory
 from flask_cors import CORS
+from audiocraft.audiogen import AudioGen #, audio_write
 sound_generator = AudioGen.get_pretrained('facebook/audiogen-medium')
 sound_generator.set_generation_params(duration=4)
 def tts_multi_sentence(scene=None):
+    if scene is not None and len(scene) >= 4:
+        print(f'Processing: {scene} ..')
+        x = sound_generator.generate([scene])[0].detach().cpu().numpy()[0, :]
+        x /= np.abs(x).max() + 1e-7
+        # sound_background = audio_write(None,
+        #                                sound_background.cpu(),
+        #                                16000, #24000,  # Same as styleTTs sample_rate,
+        #                                strategy="loudness",
+        #                                loudness_compressor=True)
+        print(f'Craft Finished for: {scene}\n\n\n\n____{x.shape}')
     else:
+        print(scene, '\nDrop\n')
+        x = np.zeros(400)
     # # StyleTTS2
     # if ('en_US/' in voice) or ('en_UK/' in voice) or (voice is None):
     #     return overlay(x, sound_background)
+    return x
     x = tts_multi_sentence(args.scene)
     OUT_FILE = 'tmp.wav'
+    soundfile.write(CACHE_DIR + OUT_FILE, x, 16000)

live_demo.py CHANGED Viewed

@@ -39,15 +39,15 @@ def send_to_server(args):
     response = requests.post(url, data=payload)  # NONEs do not arrive to servers dict
-    # Check the response from the server
-    if response.status_code == 200:
-        print("\nRequest was successful!")
-        # print("Response:", respdonse.__dict__.keys(), '\n=====\n')
-    else:
-        print("Failed to send the request")
-        print("Status Code:", response.status_code)
-        print("Response:", response.text)
     return response
@@ -60,15 +60,15 @@ def cli(): # args.out_file is not send to server - server writes tmp - copied by
         # _text, _scene = args.text.split('|')
         # args.text = _text
         args.scene = args.text #_scene
-        response = send_to_server(args)
-        out_file = '_gen_.wav'  #+ response.headers['suffix-file-type'].split('.')[-1]
-        with open(out_file, 'wb') as f:
-            f.write(response.content)
-        # print('REsponse AT client []\n----------------------------', response.headers)
-        subprocess.run(["paplay", out_file])
 if __name__ == '__main__':
     cli()

     response = requests.post(url, data=payload)  # NONEs do not arrive to servers dict
+    # # Check the response from the server
+    # if response.status_code == 200:
+    #     print("\nRequest was successful!")
+    #     # print("Response:", respdonse.__dict__.keys(), '\n=====\n')
+    # else:
+    #     print("Failed to send the request")
+    #     print("Status Code:", response.status_code)
+    #     print("Response:", response.text)
     return response
         # _text, _scene = args.text.split('|')
         # args.text = _text
         args.scene = args.text #_scene
+        if len(args.text) >= 4:
+            response = send_to_server(args)
+            out_file = '_gen_.wav'  #+ response.headers['suffix-file-type'].split('.')[-1]
+            with open(out_file, 'wb') as f:
+                f.write(response.content)
+            subprocess.run(["paplay", out_file])
+        else:
+            print(f'__\n{args.text}\n')
 if __name__ == '__main__':
     cli()

visualize_tts_plesantness.py CHANGED Viewed

@@ -452,6 +452,6 @@ for lang in ['english',
-            plt.savefig(f'fig_{lang}_{WIN=}_{HOP=}_fin0.pdf', bbox_inches='tight')
             plt.close()


452
453
454
455	+ plt.savefig(f'fig_{lang}_{WIN=}_{HOP=}_HFdisc.png', bbox_inches='tight')
456	plt.close()
457