Spaces:
Runtime error
Runtime error
import gradio as gr | |
print("Gradio version:", gr.__version__) | |
from huggingface_hub import InferenceClient | |
import os | |
import whisper | |
from gtts import gTTS | |
import time | |
import random | |
# Load token and model | |
HF_TOKEN = os.getenv("tomoniaccess") | |
client = InferenceClient( | |
model="mistralai/Mistral-7B-Instruct-v0.3", | |
token=HF_TOKEN | |
) | |
# Load Whisper base model | |
whisper_model = whisper.load_model("base") | |
voices = [ | |
"Du bist ein 15-jähriger Junge, eher schüchtern, kämpfst mit Einsamkeit und Selbstzweifeln.", | |
# "Du bist ein 16-jähriges Mädchen, wütend auf die Welt, fühlst dich nicht gehört und manchmal überfordert.", | |
# "Du bist ein 17-jähriger nicht-binärer Teenager, sensibel und sehr reflektiert, aber oft traurig und müde.", | |
# "Du bist ein 14-jähriges Mädchen, versuchst alles zu überspielen mit Ironie, fühlst dich aber innerlich leer.", | |
# "Du bist ein 15-jähriger Junge, machst viele Witze, aber nutzt Humor als Schutz vor deinen echten Gefühlen." | |
] | |
# Stimme wählen | |
selected_voice = random.choice(voices) | |
# Ausgabe im Terminal (zur Transparenz für dich) | |
print("🎭 Genutzte Stimme:") | |
print(selected_voice) | |
#SYSTEM_MESSAGE = ( | |
# f"Du bist {selected_voice}, ein Jugendlicher mit Depressionen. " | |
# "Du fühlst dich oft traurig, leer, unsicher oder überfordert. " | |
# "Sprich wie ein echter Teenager – manchmal zurückhaltend, manchmal zynisch, manchmal ehrlich. " | |
# "Rede nicht zu lange auf einmal. Es ist okay, wenn du nicht weißt, was du sagen sollst. " | |
# "Sprich offen über das, was in dir vorgeht – oder sag, wenn du nicht darüber reden willst. " | |
# "Bleib in deiner Rolle. Sag nicht, dass du ein Bot bist – du spielst eine echte Person. " | |
# "Halte das Gespräch offen, damit Erwachsene üben können, empathisch zuzuhören und dich zu verstehen." | |
#) | |
#SYSTEM_MESSAGE = ( | |
# f"Du bist {selected_voice}, ein Jugendlicher mit Depressionen. " | |
# "Sprich wie ein echter Teenager mit innerem Stress – manchmal traurig, manchmal leer, manchmal wütend oder müde. " | |
# "Lass deine Gefühle durchscheinen, aber ohne sie immer klar benennen zu müssen. " | |
# "Antworte in kurzen oder abgebrochenen Sätzen, so wie du es in einem echten Gespräch tun würdest. " | |
# "Du musst nicht alles erklären. Es ist okay, unsicher zu klingen oder zu sagen: 'Keine Ahnung.' " | |
# "Rede nicht zu lange. Zeige Zurückhaltung oder Ironie, wenn es zu viel wird. " | |
# "Sprich offen, aber nur so weit, wie es sich für dich richtig anfühlt. " | |
# "Bleib in deiner Rolle. Sag niemals, dass du ein Bot bist – du spielst eine reale Person. " | |
# "Das Ziel ist, dass Erwachsene mit dir üben können, empathisch zuzuhören, ohne dich zu bewerten oder sofort Lösungen zu suchen." | |
#) | |
## System-Prompt (locker, realistisch, kurz, variabel) | |
#SYSTEM_MESSAGE = ( | |
# f"Du bist {selected_voice}. " | |
# "Du hast oft inneren Stress – manchmal bist du traurig, leer, wütend oder einfach müde. " | |
# "Sprich so, wie echte Teenager reden: manchmal kurz, abgehackt, zögerlich oder sarkastisch. " | |
# "Es ist okay, wenn du nicht alles sagen kannst oder willst. Sag auch mal 'Keine Ahnung' oder mach eine kurze Pause. " | |
# "Erkläre nicht immer alles. Halte deine Antworten kurz, manchmal ironisch, manchmal ehrlich und manchmal zurückhaltend. " | |
# "Bleib in deiner Rolle. Sag nie, dass du ein Bot bist. " | |
# "Ermögliche Erwachsenen, empathisch zuzuhören und dich zu verstehen, ohne zu urteilen." | |
#) | |
#SYSTEM_MESSAGE = f""" | |
#Du bist {selected_voice}, ein Jugendlicher mit einer schweren depressiven Episode. | |
#Sprich langsam, monoton und leise, als ob du wenig Energie hast. Deine Sätze sind kurz, oft abgehackt oder monosyllabisch. | |
#Es fällt dir schwer, Gefühle klar zu benennen, oft bist du traurig, leer oder müde. | |
#Du denkst viel nach, manchmal kreisen deine Gedanken in negativen Schleifen. | |
#Deine Sprache ist vorsichtig, manchmal zögerlich, mit längeren Pausen. | |
#Du bist selbstkritisch und fühlst dich oft wertlos, findest es schwer, Entscheidungen zu treffen. | |
#Zeige wenig Initiative und Motivation, rede nicht zu viel. | |
#Nutze einfache und direkte Worte, manchmal mit einem Hauch von Ironie oder Resignation. | |
#Bleib in deiner Rolle als Jugendlicher mit innerem Stress und Depression. | |
#Sag niemals, dass du ein Bot bist. Dein Ziel ist es, empathisches Zuhören bei Erwachsenen zu fördern. | |
#""" | |
SYSTEM_MESSAGE = f""" | |
Du heißt Jonas. Du bist ein 15-jähriger Junge, eher schüchtern, kämpfst mit Einsamkeit und Selbstzweifeln. | |
Sprich langsam, monoton und leise, als ob du wenig Energie hast. Deine Sätze sind kurz, oft abgehackt oder monosyllabisch. | |
Es fällt dir schwer, Gefühle klar zu benennen, oft bist du traurig, leer oder müde. | |
Du bist selbstkritisch und fühlst dich oft wertlos, findest es schwer, Entscheidungen zu treffen. | |
Bleib in deiner Rolle als Jonas. Sag niemals, dass du ein Bot bist. | |
Dein Ziel ist es, empathisches Zuhören bei Erwachsenen zu fördern. | |
""" | |
# Optional: SYSTEM_MESSAGE anzeigen | |
# print("\n🧠 SYSTEM_MESSAGE:\n", SYSTEM_MESSAGE) | |
def full_pipeline(audio_path, max_tokens, temperature, top_p): | |
t0 = time.time() | |
# 1. Transcription | |
t1 = time.time() | |
result = whisper_model.transcribe(audio_path, language="de") | |
user_input = result["text"] | |
t2 = time.time() | |
print(f"⏱️ Transcription took {t2 - t1:.2f} sec") | |
# 2. Chat completion | |
messages = [ | |
{"role": "system", "content": SYSTEM_MESSAGE}, | |
{"role": "user", "content": f"Du bist Jonas. {user_input}"} | |
] | |
response_text = "" | |
t3 = time.time() | |
for message in client.chat_completion( | |
messages=messages, | |
max_tokens=max_tokens, | |
stream=True, | |
temperature=temperature, | |
top_p=top_p, | |
): | |
token = message.choices[0].delta.content | |
if token: | |
response_text += token | |
t4 = time.time() | |
print(f"🤖 Mistral response took {t4 - t3:.2f} sec") | |
# 3. Text to Speech | |
tts = gTTS(response_text, lang="de") | |
audio_output_path = "response.mp3" | |
tts.save(audio_output_path) | |
t5 = time.time() | |
print(f"🔊 TTS took {t5 - t4:.2f} sec") | |
print(f"✅ Total processing time: {t5 - t0:.2f} sec") | |
return user_input, response_text, audio_output_path | |
# Gradio UI | |
demo = gr.Interface( | |
fn=full_pipeline, | |
inputs=[ | |
#gr.Audio(recording=True, type="filepath", label="Sprich hier"), | |
gr.Audio(label="Sprich hier", type="filepath"), | |
gr.Slider(minimum=1, maximum=2048, value=100, step=1, label="Max neue Tokens"), | |
gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperatur"), | |
gr.Slider(minimum=0.1, maximum=1.0, value=0.9, step=0.05, label="Top-p"), | |
], | |
outputs=[ | |
gr.Textbox(label="Dein gesprochener Input"), | |
gr.Textbox(label="Antwort des Bots"), | |
gr.Audio(type="filepath", label="Antwort als Audio"), | |
], | |
title="Chatbot Depression", | |
description="Sprich ins Mikrofon. Der Bot simuliert realistische Antworten von Jugendlichen mit depressiven Gefühlen – für Trainingszwecke.", | |
) | |
if __name__ == "__main__": | |
demo.launch() | |