Spaces:

RedJul2110
/

MyfirstAI

Running

App Files Files Community

RedJul2110 commited on 2 days ago

Commit

3fab3cd

verified ·

1 Parent(s): 4992b50

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -9

app.py CHANGED Viewed

@@ -751,13 +751,33 @@ def init_model_if_needed():
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
-    dtype = torch.float16 if device.type == "cuda" else torch.float32
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
-        torch_dtype=dtype,
-        low_cpu_mem_usage=True
     )
     model.to(device)
     model.eval()
@@ -966,13 +986,23 @@ def generate_reply(user_message, history_context=""):
         facts = dedupe_facts([extra_fact] + facts)
     draft = compose_draft_from_facts(facts)
-    reply = polish_with_model(user_message, draft, facts, history_context)
-    if reply and not is_generic_or_placeholder_answer(reply):
-        return reply
     return general_chat_reply(user_message, history_context)
 # =========================================================
 # API
 # =========================================================

     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
+#################################################################################
+    #dtype = torch.float16 if device.type == "cuda" else torch.float32
+    #model = AutoModelForCausalLM.from_pretrained(
+    #    MODEL_NAME,
+    #    torch_dtype=dtype,
+    #    low_cpu_mem_usage=True
+    #)
+#################################################################################
+        # 4-Bit Quantisierung für 16 GB RAM (benötigt 'bitsandbytes' und 'accelerate')
+    from transformers import BitsAndBytesConfig
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_compute_dtype=torch.float16,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_use_double_quant=True,
+    )
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_NAME,
+        quantization_config=bnb_config,
+        device_map="auto", # Verteilt das Modell optimal auf GPU/CPU
+        low_cpu_mem_usage=True,
+        token=HF_TOKEN
     )
+#################################################################################
     model.to(device)
     model.eval()
         facts = dedupe_facts([extra_fact] + facts)
     draft = compose_draft_from_facts(facts)
+######################################################################################################
+    #reply = polish_with_model(user_message, draft, facts, history_context)
+    #if reply and not is_generic_or_placeholder_answer(reply):
+    #    return reply
+#
+#    return general_chat_reply(user_message, history_context)
+######################################################################################################
+    # Nur polieren, wenn wirklich relevante Fakten gefunden wurden
+    if facts and len(facts) > 0:
+        reply = polish_with_model(user_message, draft, facts, history_context)
+        # Wenn das Polieren geklappt hat und keine Standard-Floskel ist, nimm es
+        if reply and not is_generic_or_placeholder_answer(reply):
+            return reply
+    # Falls keine Fakten da sind oder das Polieren Mist war: Normaler Chat
     return general_chat_reply(user_message, history_context)
+##################################################################################################
 # =========================================================
 # API
 # =========================================================