Spaces:

fishaudio
/

fish-speech-1

Running on A10G

App Files Files Community

lengyue233 commited on 17 days ago

Commit

45eadd5

•

1 Parent(s): 9bd8a0b

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -33

app.py CHANGED Viewed

@@ -119,41 +119,19 @@ def build_html_error_message(error):
 @GPU_DECORATOR
 @torch.inference_mode()
 def inference(req: ServeTTSRequest):
-    idstr: str | None = req.reference_id
-    if idstr is not None:
-        ref_folder = Path("references") / idstr
-        ref_folder.mkdir(parents=True, exist_ok=True)
-        ref_audios = list_files(
-            ref_folder, AUDIO_EXTENSIONS, recursive=True, sort=False
         )
-        prompt_tokens = [
-            encode_reference(
-                decoder_model=decoder_model,
-                reference_audio=audio_to_bytes(str(ref_audio)),
-                enable_reference_audio=True,
-            )
-            for ref_audio in ref_audios
-        ]
-        prompt_texts = [
-            read_ref_text(str(ref_audio.with_suffix(".lab")))
-            for ref_audio in ref_audios
-        ]
-    else:
-        # Parse reference audio aka prompt
-        refs = req.references
-        prompt_tokens = [
-            encode_reference(
-                decoder_model=decoder_model,
-                reference_audio=ref.audio,
-                enable_reference_audio=True,
-            )
-            for ref in refs
-        ]
-        prompt_texts = [ref.text for ref in refs]
     if req.seed is not None:
         set_seed(req.seed)
         logger.warning(f"set seed: {req.seed}")
@@ -411,11 +389,27 @@ def build_app():
             seed,
             use_memory_cache,
         ):
             references = []
             if reference_audio:
                 # 将文件路径转换为字节
                 with open(reference_audio, 'rb') as audio_file:
                     audio_bytes = audio_file.read()
                 references = [
                     ServeReferenceAudio(audio=audio_bytes, text=reference_text)
                 ]

 @GPU_DECORATOR
 @torch.inference_mode()
 def inference(req: ServeTTSRequest):
+    # Parse reference audio aka prompt
+    refs = req.references
+    prompt_tokens = [
+        encode_reference(
+            decoder_model=decoder_model,
+            reference_audio=ref.audio,
+            enable_reference_audio=True,
         )
+        for ref in refs
+    ]
+    prompt_texts = [ref.text for ref in refs]
     if req.seed is not None:
         set_seed(req.seed)
         logger.warning(f"set seed: {req.seed}")
             seed,
             use_memory_cache,
         ):
+            print(
+                "call inference wrapper",
+                text,
+                normalize,
+                reference_audio,
+                reference_text,
+                max_new_tokens,
+                chunk_length,
+                top_p,
+                repetition_penalty,
+                temperature,
+                seed,
+                use_memory_cache
+            )
             references = []
             if reference_audio:
                 # 将文件路径转换为字节
                 with open(reference_audio, 'rb') as audio_file:
                     audio_bytes = audio_file.read()
                 references = [
                     ServeReferenceAudio(audio=audio_bytes, text=reference_text)
                 ]