Spaces:

stepfun-ai
/

Step-Audio-R1

Running

App Files Files Community

moevis commited on 12 days ago

Commit

d78daff

verified ·

1 Parent(s): 2c53962

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -15

app.py CHANGED Viewed

@@ -63,17 +63,66 @@ def format_messages(system, history, user_text, audio_data_list=None):
     # 处理历史记录
     for item in history:
-        # 支持 list of dicts 格式
-        if isinstance(item, dict) and "role" in item and "content" in item:
-            # Filter out non-serializable content (e.g. gr.Audio components)
-            content = item["content"]
-            if isinstance(content, (str, list, dict)):
-                messages.append(item)
-        # 支持 Gradio ChatMessage 对象
-        elif hasattr(item, "role") and hasattr(item, "content"):
-            content = item.content
-            if isinstance(content, (str, list, dict)):
-                messages.append({"role": item.role, "content": content})
     # 添加当前用户消息
     if user_text and audio_data_list:
@@ -146,10 +195,28 @@ def chat(system_prompt, user_text, audio_file, history, max_tokens, temperature,
         return
     # Debug: Print message format
-    print(f"[DEBUG] Messages to API: {json.dumps(messages, ensure_ascii=False, indent=2)}")
-    print(f"[DEBUG] Messages type: {type(messages)}")
-    for i, msg in enumerate(messages):
-        print(f"[DEBUG] Message {i}: {type(msg)} - {msg}")
     # Update history with user message immediately
     if audio_file:

     # 处理历史记录
     for item in history:
+        # Filter out thinking process messages
+        metadata = item.get("metadata") if isinstance(item, dict) else getattr(item, "metadata", None)
+        if metadata and isinstance(metadata, dict) and metadata.get("title") == "⏳ Thinking Process":
+            continue
+        role = item.get("role") if isinstance(item, dict) else getattr(item, "role", None)
+        content = item.get("content") if isinstance(item, dict) else getattr(item, "content", None)
+        if not role or content is None:
+            continue
+        # Check for Audio
+        is_audio = not isinstance(content, list) and content["component"] == "audio"
+        if is_audio:
+            audio_path = content["value"]["path"]
+            if audio_path and os.path.exists(audio_path):
+                try:
+                    item_audio_data_list = process_audio(audio_path)
+                    new_content = []
+                    for audio_data in item_audio_data_list:
+                        new_content.append({
+                            "type": "input_audio",
+                            "input_audio": {
+                                "data": audio_data,
+                                "format": "wav"
+                            }
+                        })
+                    messages.append({"role": role, "content": new_content})
+                except Exception as e:
+                    print(f"[ERROR] Failed to process history audio: {e}")
+        elif isinstance(content, str):
+            messages.append({"role": role, "content": content})
+        elif isinstance(content, list):
+            # Assume it's already a list of parts or mixed
+            safe_content = []
+            for c in content:
+                # Check for Audio in list
+                is_c_audio = c.get('component', None) == "audio"
+                if is_c_audio:
+                    audio_path = c["value"]["path"]
+                    if audio_path and os.path.exists(audio_path):
+                        try:
+                            item_audio_data_list = process_audio(audio_path)
+                            for audio_data in item_audio_data_list:
+                                safe_content.append({
+                                    "type": "input_audio",
+                                    "input_audio": {
+                                        "data": audio_data,
+                                        "format": "wav"
+                                    }
+                                })
+                        except Exception as e:
+                            print(f"[ERROR] Failed to process history audio in list: {e}")
+                elif isinstance(c, dict):
+                    safe_content.append(c)
+                elif isinstance(c, str):
+                    safe_content.append({"type": "text", "text": c})
+            messages.append({"role": role, "content": safe_content})
     # 添加当前用户消息
     if user_text and audio_data_list:
         return
     # Debug: Print message format
+    debug_messages = []
+    for msg in messages:
+        if isinstance(msg, dict) and isinstance(msg.get("content"), list):
+            new_content = []
+            for item in msg["content"]:
+                if isinstance(item, dict) and item.get("type") == "input_audio":
+                    item_copy = item.copy()
+                    if "input_audio" in item_copy:
+                        audio_info = item_copy["input_audio"].copy()
+                        if "data" in audio_info:
+                            audio_info["data"] = f"[BASE64_AUDIO_DATA_LEN_{len(audio_info['data'])}]"
+                        item_copy["input_audio"] = audio_info
+                    new_content.append(item_copy)
+                else:
+                    new_content.append(item)
+            msg_copy = msg.copy()
+            msg_copy["content"] = new_content
+            debug_messages.append(msg_copy)
+        else:
+            debug_messages.append(msg)
+    print(f"[DEBUG] Messages to API: {json.dumps(debug_messages, ensure_ascii=False, indent=2)}")
     # Update history with user message immediately
     if audio_file: