Spaces:

TuringsSolutions
/

test-gpt-omni

Running

App Files Files Community

TuringsSolutions commited on Oct 12

Commit

b6ab738

•

0 Parent(s):

initial commit

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +13 -0
app.py +92 -0
requirements.txt +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Test Gpt Omni
+emoji: ⚡
+colorFrom: gray
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.0.2
+app_file: app.py
+pinned: false
+short_description: Experimenting with multimodal models and Gradio 5
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import gradio as gr
+import numpy as np
+import io
+import tempfile
+from pydub import AudioSegment
+from dataclasses import dataclass, field
+import numpy as np
+@dataclass
+class AppState:
+    stream: np.ndarray | None = None
+    sampling_rate: int = 0
+    pause_detected: bool = False
+    stopped: bool = False
+    started_talking: bool = False
+    conversation: list = field(default_factory=list)  # Use default_factory for mutable defaults
+# Function to process audio input and detect pauses
+def process_audio(audio: tuple, state: AppState):
+    if state.stream is None:
+        state.stream = audio[1]
+        state.sampling_rate = audio[0]
+    else:
+        state.stream = np.concatenate((state.stream, audio[1]))
+    # Custom pause detection logic (replace with actual implementation)
+    pause_detected = len(state.stream) > state.sampling_rate * 1  # Example: 1-sec pause
+    state.pause_detected = pause_detected
+    if state.pause_detected:
+        return gr.Audio(recording=False), state  # Stop recording
+    return None, state
+# Generate chatbot response from user audio input
+def response(state: AppState):
+    if not state.pause_detected:
+        return None, state
+    # Convert user audio to WAV format
+    audio_buffer = io.BytesIO()
+    segment = AudioSegment(
+        state.stream.tobytes(),
+        frame_rate=state.sampling_rate,
+        sample_width=state.stream.dtype.itemsize,
+        channels=1 if len(state.stream.shape) == 1 else state.stream.shape[1]
+    )
+    segment.export(audio_buffer, format="wav")
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as f:
+        f.write(audio_buffer.getvalue())
+    state.conversation.append({"role": "user", "content": {"path": f.name, "mime_type": "audio/wav"}})
+    # Simulate chatbot's response (replace with mini omni model logic)
+    chatbot_response = b"Simulated response audio content"  # Placeholder
+    output_buffer = chatbot_response  # Stream actual chatbot response here
+    with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as f:
+        f.write(output_buffer)
+    state.conversation.append({"role": "assistant", "content": {"path": f.name, "mime_type": "audio/mp3"}})
+    yield None, state
+# --- Gradio Interface ---
+def start_recording_user(state: AppState):
+    if not state.stopped:
+        return gr.Audio(recording=True)
+# Build Gradio app using Blocks API
+with gr.Blocks() as demo:
+    with gr.Row():
+        with gr.Column():
+            input_audio = gr.Audio(label="Input Audio", sources="microphone", type="numpy")
+        with gr.Column():
+            chatbot = gr.Chatbot(label="Conversation", type="messages")
+            output_audio = gr.Audio(label="Output Audio", streaming=True, autoplay=True)
+    state = gr.State(value=AppState())
+    stream = input_audio.stream(
+        process_audio, [input_audio, state], [input_audio, state], stream_every=0.5, time_limit=30
+    )
+    respond = input_audio.stop_recording(response, [state], [output_audio, state])
+    respond.then(lambda s: s.conversation, [state], [chatbot])
+    restart = output_audio.stop(start_recording_user, [state], [input_audio])
+    cancel = gr.Button("Stop Conversation", variant="stop")
+    cancel.click(lambda: (AppState(stopped=True), gr.Audio(recording=False)), None, [state, input_audio], cancels=[respond, restart])
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

File without changes