Spaces:

sadovsky
/

MBTI

Sleeping

App Files Files Community

QAway-to commited on Oct 26

Commit

9458365

1 Parent(s): a5e0a96

google/flan-t5-small . app.py v2.0

Browse files

Files changed (1) hide show

core/interviewer.py +74 -92

core/interviewer.py CHANGED Viewed

@@ -1,109 +1,91 @@
 # core/interviewer.py
-import random
-import difflib
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
-# Выбери одну
 QG_MODEL = "google/flan-t5-small"
-# QG_MODEL = "iarfmoose/t5-base-question-generator"
 tokenizer = AutoTokenizer.from_pretrained(QG_MODEL)
 model = AutoModelForSeq2SeqLM.from_pretrained(QG_MODEL)
-qg = pipeline(
     "text2text-generation",
     model=model,
     tokenizer=tokenizer,
     max_new_tokens=40,
     num_beams=4,
-    no_repeat_ngram_size=4
 )
-CATEGORIES = [
-    "Introversion","Extroversion",
-    "Sensing","Intuition",
-    "Thinking","Feeling",
-    "Judging","Perceiving"
-]
-# Простенькая “память” с защитой от повторов
-session_state = {}
-def init_session(user_id: str):
-    session_state[user_id] = {"asked": [], "answers": {}, "questions": []}
-def _too_similar(q: str, prev: list[str], thresh=0.86) -> bool:
-    qn = q.lower().strip()
-    for p in prev:
-        if difflib.SequenceMatcher(None, qn, p.lower().strip()).ratio() >= thresh:
-            return True
-    return False
-def _clean(q: str) -> str:
-    q = q.strip().strip('"').strip("'")
-    # вырезаем префиксы вроде "question:", "generate a question:", etc.
-    bad = ["question:", "generate a question", "ask", "instruction", "output only", "you are"]
-    low = q.lower()
-    for b in bad:
-        if b in low:
-            # берём правую часть после двоеточия если есть
-            if ":" in q:
-                q = q.split(":", 1)[-1]
-            q = q.replace(b, "")
-    q = q.strip()
-    if not q.endswith("?"):
-        q += "?"
-    # короткие/мусорные — фоллбэк
-    if len(q.split()) < 3:
-        return "What do you usually enjoy doing in your free time?"
-    return q
-def _template(category: str, user_answer: str) -> str:
     """
-    T5 понимает краткие шаблоны лучше длинных инструкций.
-    Для разных моделей – чуть разные формулировки, но суть одна:
     """
-    if "flan" in QG_MODEL:
-        # FLAN любит простые задачи в стиле instruction-tuning
-        return (
-            f"Generate one open-ended question about {category.lower()} based on the user's answer.\n"
-            f"User: {user_answer}\n"
-            f"Question:"
-        )
-    elif "question-generator" in QG_MODEL:
-        # Модель обучена на QG; ей достаточно контекста
-        return f"generate question: {user_answer} (topic: {category})"
-    else:
-        # very small QG
-        return f"answer: {user_answer} topic: {category} -> question"
-def generate_question(user_id: str, user_answer: str) -> str:
-    if user_id not in session_state:
-        init_session(user_id)
-    S = session_state[user_id]
-    # выбираем НЕспрошенную категорию
-    remaining = [c for c in CATEGORIES if c not in S["asked"]]
-    if not remaining:
-        return "✅ All 8 categories completed."
-    category = random.choice(remaining)
-    # короткий, “неразговорчивый” шаблон (T5 такое любит)
-    prompt = _template(category, user_answer)
-    out = qg(prompt)[0]["generated_text"]
-    q = _clean(out)
-    # защита от повторов/перефразов
-    tries = 0
-    while _too_similar(q, S["questions"]) and tries < 3:
-        out = qg(prompt)[0]["generated_text"]
-        q = _clean(out)
-        tries += 1
-    S["asked"].append(category)
-    S["questions"].append(q)
-    return f"({category}) {q}"

 # core/interviewer.py
+"""
+🇬🇧 Interviewer logic module
+Generates context-aware MBTI interview questions using Flan-T5 model.
+🇷🇺 Модуль логики интервьюера
+Генерирует вопросы по категориям MBTI с использованием Flan-T5.
+"""
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+import random
+# --------------------------------------------------------------
+# 1️⃣ Настройки
+# --------------------------------------------------------------
 QG_MODEL = "google/flan-t5-small"
 tokenizer = AutoTokenizer.from_pretrained(QG_MODEL)
 model = AutoModelForSeq2SeqLM.from_pretrained(QG_MODEL)
+qg_pipe = pipeline(
     "text2text-generation",
     model=model,
     tokenizer=tokenizer,
     max_new_tokens=40,
     num_beams=4,
+    no_repeat_ngram_size=4,
 )
+# --------------------------------------------------------------
+# 2️⃣ Состояние сессии
+# --------------------------------------------------------------
+session_state = {
+    "history": {},
+    "categories": [
+        "Extroversion", "Introversion",
+        "Sensing", "Intuition",
+        "Thinking", "Feeling",
+        "Judging", "Perceiving"
+    ],
+}
+# --------------------------------------------------------------
+# 3️⃣ Генерация нового вопроса
+# --------------------------------------------------------------
+def generate_question(user_id: str, user_answer: str = None):
     """
+    Generates one question per MBTI axis.
+    Avoids repeating previous ones within the same session.
     """
+    history = session_state["history"].get(user_id, {"asked": []})
+    asked = history["asked"]
+    all_cats = session_state["categories"]
+    # Если все категории пройдены
+    if len(asked) >= len(all_cats):
+        return "✅ All MBTI axes covered."
+    # Выбираем следующую категорию
+    next_cat = next(c for c in all_cats if c not in asked)
+    history["asked"].append(next_cat)
+    session_state["history"][user_id] = history
+    # Промпт для T5
+    prompt = (
+        f"Generate one open-ended question about {next_cat} based on this context: '{user_answer}'. "
+        f"Do not repeat or explain. Output only the question itself."
+    )
+    try:
+        output = qg_pipe(prompt)[0]["generated_text"].strip()
+    except Exception as e:
+        return f"⚠️ Generation error: {e}"
+    # Очистка мусора — чтобы не было “Generate a question about...”
+    bad_phrases = [
+        "generate", "question about", "output", "explain", "instruction", "user said"
+    ]
+    for bp in bad_phrases:
+        if bp.lower() in output.lower():
+            output = output.split(bp, 1)[-1].strip().lstrip(":").strip()
+    # Убеждаемся, что начинается с нужного слова
+    if not output[0].isupper():
+        output = output.capitalize()
+    if "?" not in output:
+        output += "?"
+    return f"({next_cat}) {output}"