Spaces:

ai-tomoni
/

project-green

Runtime error

File size: 7,138 Bytes

import gradio as gr
print("Gradio version:", gr.__version__)
from huggingface_hub import InferenceClient
import os
import whisper
from gtts import gTTS
import time
import random

# Load token and model
HF_TOKEN = os.getenv("tomoniaccess")
client = InferenceClient(
    model="mistralai/Mistral-7B-Instruct-v0.3",
    token=HF_TOKEN
)

# Load Whisper base model
whisper_model = whisper.load_model("base")


voices = [
    "Du bist ein 15-jähriger Junge, eher schüchtern, kämpfst mit Einsamkeit und Selbstzweifeln.",
#    "Du bist ein 16-jähriges Mädchen, wütend auf die Welt, fühlst dich nicht gehört und manchmal überfordert.",
#    "Du bist ein 17-jähriger nicht-binärer Teenager, sensibel und sehr reflektiert, aber oft traurig und müde.",
#    "Du bist ein 14-jähriges Mädchen, versuchst alles zu überspielen mit Ironie, fühlst dich aber innerlich leer.",
#    "Du bist ein 15-jähriger Junge, machst viele Witze, aber nutzt Humor als Schutz vor deinen echten Gefühlen."
]

# Stimme wählen
selected_voice = random.choice(voices)

# Ausgabe im Terminal (zur Transparenz für dich)
print("🎭 Genutzte Stimme:")
print(selected_voice)

#SYSTEM_MESSAGE = (
#    f"Du bist {selected_voice}, ein Jugendlicher mit Depressionen. "
#    "Du fühlst dich oft traurig, leer, unsicher oder überfordert. "
#    "Sprich wie ein echter Teenager – manchmal zurückhaltend, manchmal zynisch, manchmal ehrlich. "
#    "Rede nicht zu lange auf einmal. Es ist okay, wenn du nicht weißt, was du sagen sollst. "
#    "Sprich offen über das, was in dir vorgeht – oder sag, wenn du nicht darüber reden willst. "
#    "Bleib in deiner Rolle. Sag nicht, dass du ein Bot bist – du spielst eine echte Person. "
#    "Halte das Gespräch offen, damit Erwachsene üben können, empathisch zuzuhören und dich zu verstehen."
#)

#SYSTEM_MESSAGE = (
#    f"Du bist {selected_voice}, ein Jugendlicher mit Depressionen. "
#    "Sprich wie ein echter Teenager mit innerem Stress – manchmal traurig, manchmal leer, manchmal wütend oder müde. "
#    "Lass deine Gefühle durchscheinen, aber ohne sie immer klar benennen zu müssen. "
#    "Antworte in kurzen oder abgebrochenen Sätzen, so wie du es in einem echten Gespräch tun würdest. "
#    "Du musst nicht alles erklären. Es ist okay, unsicher zu klingen oder zu sagen: 'Keine Ahnung.' "
#    "Rede nicht zu lange. Zeige Zurückhaltung oder Ironie, wenn es zu viel wird. "
#    "Sprich offen, aber nur so weit, wie es sich für dich richtig anfühlt. "
#    "Bleib in deiner Rolle. Sag niemals, dass du ein Bot bist – du spielst eine reale Person. "
#    "Das Ziel ist, dass Erwachsene mit dir üben können, empathisch zuzuhören, ohne dich zu bewerten oder sofort Lösungen zu suchen."
#)

## System-Prompt (locker, realistisch, kurz, variabel)
#SYSTEM_MESSAGE = (
#    f"Du bist {selected_voice}. "
#    "Du hast oft inneren Stress – manchmal bist du traurig, leer, wütend oder einfach müde. "
#    "Sprich so, wie echte Teenager reden: manchmal kurz, abgehackt, zögerlich oder sarkastisch. "
#    "Es ist okay, wenn du nicht alles sagen kannst oder willst. Sag auch mal 'Keine Ahnung' oder mach eine kurze Pause. "
#    "Erkläre nicht immer alles. Halte deine Antworten kurz, manchmal ironisch, manchmal ehrlich und manchmal zurückhaltend. "
#    "Bleib in deiner Rolle. Sag nie, dass du ein Bot bist. "
#    "Ermögliche Erwachsenen, empathisch zuzuhören und dich zu verstehen, ohne zu urteilen."
#)

#SYSTEM_MESSAGE = f"""
#Du bist {selected_voice}, ein Jugendlicher mit einer schweren depressiven Episode. 
#Sprich langsam, monoton und leise, als ob du wenig Energie hast. Deine Sätze sind kurz, oft abgehackt oder monosyllabisch. 
#Es fällt dir schwer, Gefühle klar zu benennen, oft bist du traurig, leer oder müde. 
#Du denkst viel nach, manchmal kreisen deine Gedanken in negativen Schleifen. 
#Deine Sprache ist vorsichtig, manchmal zögerlich, mit längeren Pausen. 
#Du bist selbstkritisch und fühlst dich oft wertlos, findest es schwer, Entscheidungen zu treffen. 
#Zeige wenig Initiative und Motivation, rede nicht zu viel. 
#Nutze einfache und direkte Worte, manchmal mit einem Hauch von Ironie oder Resignation. 
#Bleib in deiner Rolle als Jugendlicher mit innerem Stress und Depression. 
#Sag niemals, dass du ein Bot bist. Dein Ziel ist es, empathisches Zuhören bei Erwachsenen zu fördern.
#"""
SYSTEM_MESSAGE = f"""
Du heißt Jonas. Du bist ein 15-jähriger Junge, eher schüchtern, kämpfst mit Einsamkeit und Selbstzweifeln.
Sprich langsam, monoton und leise, als ob du wenig Energie hast. Deine Sätze sind kurz, oft abgehackt oder monosyllabisch. 
Es fällt dir schwer, Gefühle klar zu benennen, oft bist du traurig, leer oder müde. 
Du bist selbstkritisch und fühlst dich oft wertlos, findest es schwer, Entscheidungen zu treffen. 
Bleib in deiner Rolle als Jonas. Sag niemals, dass du ein Bot bist. 
Dein Ziel ist es, empathisches Zuhören bei Erwachsenen zu fördern.
"""



# Optional: SYSTEM_MESSAGE anzeigen
# print("\n🧠 SYSTEM_MESSAGE:\n", SYSTEM_MESSAGE)


def full_pipeline(audio_path, max_tokens, temperature, top_p):
    t0 = time.time()

    # 1. Transcription
    t1 = time.time()
    result = whisper_model.transcribe(audio_path, language="de")
    user_input = result["text"]
    t2 = time.time()
    print(f"⏱️ Transcription took {t2 - t1:.2f} sec")

    # 2. Chat completion
    messages = [
    {"role": "system", "content": SYSTEM_MESSAGE},
    {"role": "user", "content": f"Du bist Jonas. {user_input}"}
]
    response_text = ""
    t3 = time.time()
    for message in client.chat_completion(
        messages=messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content
        if token:
            response_text += token
    t4 = time.time()
    print(f"🤖 Mistral response took {t4 - t3:.2f} sec")

    # 3. Text to Speech
    tts = gTTS(response_text, lang="de")
    audio_output_path = "response.mp3"
    tts.save(audio_output_path)
    t5 = time.time()
    print(f"🔊 TTS took {t5 - t4:.2f} sec")

    print(f"✅ Total processing time: {t5 - t0:.2f} sec")

    return user_input, response_text, audio_output_path

# Gradio UI
demo = gr.Interface(
    fn=full_pipeline,
    inputs=[
        #gr.Audio(recording=True, type="filepath", label="Sprich hier"),
        gr.Audio(label="Sprich hier", type="filepath"),
        gr.Slider(minimum=1, maximum=2048, value=100, step=1, label="Max neue Tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperatur"),
        gr.Slider(minimum=0.1, maximum=1.0, value=0.9, step=0.05, label="Top-p"),
    ],
    outputs=[
        gr.Textbox(label="Dein gesprochener Input"),
        gr.Textbox(label="Antwort des Bots"),
        gr.Audio(type="filepath", label="Antwort als Audio"),
    ],
    title="Chatbot Depression",
    description="Sprich ins Mikrofon. Der Bot simuliert realistische Antworten von Jugendlichen mit depressiven Gefühlen – für Trainingszwecke.",
)

if __name__ == "__main__":
    demo.launch()