Spaces:

tonychenxyz
/

emo-knob

Sleeping

App Files Files Community

tonychenxyz commited on Sep 29

Commit

e9585f6

•

1 Parent(s): abbdb85

added gpu detection

Browse files

Files changed (1) hide show

app.py +46 -37

app.py CHANGED Viewed

@@ -2,6 +2,7 @@
 import os
 import subprocess
 import sys
 def install(package):
     if '=' in package:
@@ -41,6 +42,7 @@ if not is_prod:
     os.environ['PATH'] += os.pathsep + ffmpeg_path
 import shutil
 import tempfile
 import time
@@ -71,45 +73,50 @@ from fam.llm.utils import (
 )
 debug = False
-if not debug:
-    model_name = "metavoiceio/metavoice-1B-v0.1"
-    seed = 1337
-    output_dir = "outputs"
-    _dtype = get_default_dtype()
-    _device = 'cuda:0'
-    _model_dir = snapshot_download(repo_id=model_name)
-    first_stage_adapter = FlattenedInterleavedEncodec2Codebook(end_of_audio_token=1024)
-    output_dir = output_dir
-    os.makedirs(output_dir, exist_ok=True)
-    second_stage_ckpt_path = f"{_model_dir}/second_stage.pt"
-    config_second_stage = InferenceConfig(
-        ckpt_path=second_stage_ckpt_path,
-        num_samples=1,
-        seed=seed,
-        device=_device,
-        dtype=_dtype,
-        compile=False,
-        init_from="resume",
-        output_dir=output_dir,
-    )
-    data_adapter_second_stage = TiltedEncodec(end_of_audio_token=1024)
-    llm_second_stage = Model(
-        config_second_stage, TrainedBPETokeniser, EncodecDecoder, data_adapter_fn=data_adapter_second_stage.decode
-    )
-    enhancer = get_enhancer("df")
-    precision = {"float16": torch.float16, "bfloat16": torch.bfloat16}[_dtype]
-    model, tokenizer, smodel, model_size = build_model(
-        precision=precision,
-        checkpoint_path=Path(f"{_model_dir}/first_stage.pt"),
-        spk_emb_ckpt_path=Path(f"{_model_dir}/speaker_encoder.pt"),
-        device=_device,
-        compile=True,
-        compile_prefill=True,
-    )
 def generate_sample(text, emo_dir = None, source_path = None, emo_path = None, neutral_path = None, strength = 0.1, top_p = 0.95, guidance_scale = 3.0, preset_dropdown = None, toggle = None):
     print('text', text)
@@ -284,6 +291,7 @@ EmoKnob is uses [MetaVoice](https://github.com/metavoiceio/metavoice-src) as voi
 with gr.Blocks(title="EmoKnob Demo") as demo:
     gr.Markdown(title)
     gr.Image("emo-knob-teaser-1.svg", show_label=False, container=False)
     with gr.Row():
@@ -383,4 +391,5 @@ with gr.Blocks(title="EmoKnob Demo") as demo:
         outputs=speech,
     )
 demo.launch()

 import os
 import subprocess
 import sys
+import spaces
 def install(package):
     if '=' in package:
     os.environ['PATH'] += os.pathsep + ffmpeg_path
 import shutil
 import tempfile
 import time
 )
 debug = False
+DESCRIPTION = ""
+if not torch.cuda.is_available():
+    DESCRIPTION += "\n<p>Running on CPU 🥶 This demo does not work on CPU.</p>"
+if torch.cuda.is_available():
+    if not debug:
+        model_name = "metavoiceio/metavoice-1B-v0.1"
+        seed = 1337
+        output_dir = "outputs"
+        _dtype = get_default_dtype()
+        _device = 'cuda:0'
+        _model_dir = snapshot_download(repo_id=model_name)
+        first_stage_adapter = FlattenedInterleavedEncodec2Codebook(end_of_audio_token=1024)
+        output_dir = output_dir
+        os.makedirs(output_dir, exist_ok=True)
+        second_stage_ckpt_path = f"{_model_dir}/second_stage.pt"
+        config_second_stage = InferenceConfig(
+            ckpt_path=second_stage_ckpt_path,
+            num_samples=1,
+            seed=seed,
+            device=_device,
+            dtype=_dtype,
+            compile=False,
+            init_from="resume",
+            output_dir=output_dir,
+        )
+        data_adapter_second_stage = TiltedEncodec(end_of_audio_token=1024)
+        llm_second_stage = Model(
+            config_second_stage, TrainedBPETokeniser, EncodecDecoder, data_adapter_fn=data_adapter_second_stage.decode
+        )
+        enhancer = get_enhancer("df")
+        precision = {"float16": torch.float16, "bfloat16": torch.bfloat16}[_dtype]
+        model, tokenizer, smodel, model_size = build_model(
+            precision=precision,
+            checkpoint_path=Path(f"{_model_dir}/first_stage.pt"),
+            spk_emb_ckpt_path=Path(f"{_model_dir}/speaker_encoder.pt"),
+            device=_device,
+            compile=True,
+            compile_prefill=True,
+        )
+@spaces.GPU
 def generate_sample(text, emo_dir = None, source_path = None, emo_path = None, neutral_path = None, strength = 0.1, top_p = 0.95, guidance_scale = 3.0, preset_dropdown = None, toggle = None):
     print('text', text)
 with gr.Blocks(title="EmoKnob Demo") as demo:
     gr.Markdown(title)
+    gr.Markdown(description)
     gr.Image("emo-knob-teaser-1.svg", show_label=False, container=False)
     with gr.Row():
         outputs=speech,
     )
 demo.launch()