Spaces:

lordzukoiroh
/

fahrenheit

Sleeping

App Files Files Community

lordzukoiroh commited on Jul 12

Commit

1ee3854

verified ·

1 Parent(s): 1882db4

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -91

app.py CHANGED Viewed

@@ -604,96 +604,64 @@ def generate_answer(question: str, chatbot_history: List[List[str]]) -> Tuple[st
         inputs = encoded_inputs["input_ids"]
         attention_mask = encoded_inputs["attention_mask"]
         outputs = model.generate(
             inputs,
             attention_mask=attention_mask,
-            max_new_tokens=150,
             do_sample=True,
             top_p=0.9,
             temperature=gen_params["temperature"],
-            repetition_penalty=1.4, # <<< BURAYI DEĞİŞTİRİN (veya gen_params'te ayarlayın)
-            no_repeat_ngram_size=6, # <<< BURAYI DEĞİŞTİRİN (gerekirse)
             num_beams=1,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
         )
-# --- BURADAN İTİBAREN YENİ TEMİZLİK KODUNU EKLEYİN/DEĞİŞTİRİN ---
-response = raw_response_with_prompt
-# 1. Prompt'un kendisini ve "Montag:" kısmını cevaptan ayırma
-match = re.search(r'(?i)Montag:\s*(.*)', response, re.DOTALL)
-if match:
-    response = match.group(1).strip()
-else:
-    prompt_decoded_for_comparison = tokenizer.decode(inputs[0], skip_special_tokens=True)
-    if response.startswith(prompt_decoded_for_comparison):
-        response = response[len(prompt_decoded_for_comparison):].strip()
-    else:
-        response = raw_response_with_prompt.strip()
-# 2. Persona talimatlarının cevapta tekrarlanmasını engelle
-persona_lines = [line.strip() for line in MONTAG_PERSONA.split('\n') if line.strip()]
-for line in persona_lines:
-    if response.lower().startswith(line.lower()):
-        response = response[len(line):].strip()
-# 3. Fazladan "Kullanıcı: " veya "Montag: " tekrarlarını ve anlamsız tokenleri temizle
-response = response.replace("<unk>", "").strip()
-response = response.replace(" .", ".").replace(" ,", ",").replace(" ?", "?").replace(" !", "!")
-response = re.sub(r'Kullanıcı:\s*', '', response, flags=re.IGNORECASE)
-response = re.sub(r'Montag:\s*', '', response, flags=re.IGNORECASE)
-if "ETİKETLER:" in response:
-    response = response.split("ETİKETLER:", 1)[0].strip()
-response = re.sub(r'\[\s*\.{3,}\s*\]', '', response).strip()
-# --- Önceki Konuşma ve Tekrar Eden Kalıpları Temizleme ---
-# Bu kısmı kendi irrelevant_dialogue_patterns listenizle birleştirin/değiştirin
-irrelevant_dialogue_patterns = [
-    # Modelin sürekli tekrarladığı "Nasılsın, iyi misin" ve devamı kalıbı
-    r'Nasılsın,\s*iyi\s*misin\s*"\s*diye\s*sordu\s*Sesin\s*oldukça\s*tizdi,\s*hatta\s*neredeyse\s*boğuluyordu\s*Sesi\s*artık\s*iyice\s*boğuklaşmıştı\s*Gözlerindeki\s*donukluk\s*ve\s*akıl\s*almaz\s*kararlılık,\s*Montag\'ın\s*aklını\s*karıştırıyordu\s*Ne\s*söyleyeceğini\s*bilemiyormuş\s*gibiydi',
-    r'Ne\s*düşünüyorsun\s*\,\s*sorusuna,\s*—\s*İyi\s*değil\s*miyim\s*\(Tıslayarak\)\s*Hayır,\s*kötü\s*değil\s*miyim\s*diyerek\s*cevabı\s*yapıştırdı',
-    # ... diğer temizlik kalıplarınız ...
-]
-for pattern in irrelevant_dialogue_patterns:
-    response = re.sub(pattern, '', response, flags=re.IGNORECASE).strip()
-response = re.sub(r'\s+', ' ', response).strip() # Fazla boşlukları tek boşluğa indirge
-# --- BURADA KODUNUZUN DİĞER TEMİZLİK VE FİLTRELEME İŞLEMLERİ DEVAM EDER ---
-# Örneğin, aggressive_words ve generic_or_nonsense_phrases listelerinizin güncel halini ve puanlama sistemini buraya ekleyin
-        # 2. Persona talimatlarının cevapta tekrarlanmasını engelle (güncel MONTAG_PERSONA'ya göre)
         persona_lines = [line.strip() for line in MONTAG_PERSONA.split('\n') if line.strip()]
         for line in persona_lines:
-            # Sadece cevabın başında tekrar eden persona talimatlarını temizle
             if response.lower().startswith(line.lower()):
                 response = response[len(line):].strip()
         # 3. Fazladan "Kullanıcı: " veya "Montag: " tekrarlarını ve anlamsız tokenleri temizle
         response = response.replace("<unk>", "").strip()
         response = response.replace(" .", ".").replace(" ,", ",").replace(" ?", "?").replace(" !", "!")
-        # Ek olarak, cevabın içinde hala kalmış olabilecek "Kullanıcı:" veya "Montag:" etiketlerini temizle
         response = re.sub(r'Kullanıcı:\s*', '', response, flags=re.IGNORECASE)
         response = re.sub(r'Montag:\s*', '', response, flags=re.IGNORECASE)
-        # Cevabın içinde "ETİKETLER:" gibi ifadeler varsa temizle
         if "ETİKETLER:" in response:
             response = response.split("ETİKETLER:", 1)[0].strip()
-        # Cevabın sonundaki "[...]" gibi ifadeleri temizle
         response = re.sub(r'\[\s*\.{3,}\s*\]', '', response).strip()
-        # --- DEĞİŞİKLİK NOTLARI: Alakasız diyalog kalıpları listesini gevşetildi ---
-        # Sadece gerçekten modelin 'bug'larından kaynaklanan, sürekli tekrar eden veya anlamsız kalıpları bırakın.
-        # Montag'ın doğal diyaloguna benzeyen veya kısa, net ifadeleri ÇIKARIN.
-        irrelevant_dialogue_patterns = [
-            r'ne zaman kendimi, her şeyi daha iyi anlayabileceğim, daha gerçekleştirebileceğim ve her şeyin üstesinden geleceğim bir yere koysam, daha sonra o yerin bana hiçbir şey öğretmediğini ve hiçbir şeyi öğretmediğini fark ediyorum. Ben kendimi daha fazla kandırmak istemiyorum. Ama ben, beni gerçekten etkileyen başka biri tarafından yönetilen bir.', # Tekrarlayan uzun ve alakasız metin
-            r'her şeyi en ince ayrıntısına kadar anladım ama aynı zamanda da inanılmaz derecede utanıyorum. İnan bana, ben çok utangaçım.' # Tekrarlayan utangaçlık metni
-            # Diğerlerini kaldırın veya çok daha spesifik hale getirin
         ]
         for pattern in irrelevant_dialogue_patterns:
             response = re.sub(pattern, '', response, flags=re.IGNORECASE).strip()
@@ -701,11 +669,10 @@ response = re.sub(r'\s+', ' ', response).strip() # Fazla boşlukları tek boşlu
         response = re.sub(r'\s+', ' ', response).strip()
         # Agresif veya hakaret içeren kelimeleri kontrol et
-        aggressive_words = ["aptal", "salak", "gerizekalı", "saçma", "boş konuşma", "kaba", "agresif"]
-        # "bilmiyorsun", "yanlışsın" gibi kelimeleri doğrudan agresif saymak yerine, bağlama göre değerlendirilebilir.
-        # --- DEĞİŞİKLİK NOTLARI: Filtreleme Mantığına Puanlama Sistemi Eklendi ---
-        # Her bir filtre kuralına bir "ceza puanı" veriyoruz. Toplam puan belirli bir eşiği geçerse reddedeceğiz.
         rejection_score = 0
         filter_reasons = []
@@ -713,53 +680,52 @@ response = re.sub(r'\s+', ' ', response).strip() # Fazla boşlukları tek boşlu
         if len(response.split()) < 5:
             rejection_score += 2 # Hafif ceza
             filter_reasons.append(f"Çok kısa ({len(response.split())} kelime).")
         # 2. Sadece Harf İçermiyor Kontrolü (Bu genellikle iyi bir filtre)
         if not any(char.isalpha() for char in response):
             rejection_score += 10 # Ciddi ceza
             filter_reasons.append("Hiç harf içermiyor (sadece noktalama/sayı).")
         # 3. Genel/Anlamsız İfade Kontrolü (Listeyi yukarıda temizlemiştik)
         generic_or_nonsense_phrases = [
             "içir unidur", "aligutat fakdam", "tetal inlay", "pessotim elgun", # Modelin ürettiği anlamsız tokenler
             "nisman tarejoglu", "faksom", "achisteloy vandleradia", "vęudis",
             "eltareh", "eldlar", "fotjid", "zuhalibalyon",
             "etiketler:", # Meta bilgi sızıntısı
-            # Sadece gerçekten anlamsız olanları bırakın
-        ]
         triggered_generic_phrases = [phrase for phrase in generic_or_nonsense_phrases if phrase in response.lower()]
         if triggered_generic_phrases:
             rejection_score += len(triggered_generic_phrases) * 3 # Her anlamsız ifade için ceza
             filter_reasons.append(f"Anlamsız/istenmeyen ifade tespit edildi: {triggered_generic_phrases}.")
         # 4. Montag Karakteriyle Alaka Kontrolü (Daha esnek)
-        montag_keywords = ["kitap", "yakmak", "itfaiyeci", "clarisse", "faber", "beatty", "bilgi", "sansür", "düşünce", "gerçek", "televizyon", "alev", "kül", "mildred", "yangın", "fireman"]
         has_montag_relevance = any(keyword in response.lower() for keyword in montag_keywords)
-        # Eğer cevap uzunsa (anlamsız uzun metinleri yakalamak için) ve alakasızsa ceza ver
-        if len(response.split()) > 15 and not has_montag_relevance:
-            rejection_score += 4
             filter_reasons.append("Montag/bağlamsal anahtar kelime yok ve cevap uzun.")
         # 5. Agresif Kelime Kontrolü
         aggressive_words_found = [word for word in aggressive_words if word in response.lower()]
         if aggressive_words_found:
             rejection_score += 5 # Ciddi ceza
             filter_reasons.append(f"Agresif/istenmeyen kelime tespit edildi: {aggressive_words_found}.")
-        # --- Karar verme eşiği ---
-        # Toplam ceza puanı 5'i (veya belirleyeceğiniz başka bir eşiği) geçerse reddet
         if rejection_score >= 5: # Bu eşik değerini test ederek ayarlamanız gerekebilir.
             print(f"DEBUG: FİLTRELEME - Cevap YETERSİZ/ANLAMSIZ/ALAKASIZ. Toplam Puan: {rejection_score}")
             for reason in filter_reasons:
                 print(f"  - Sebep: {reason}")
             print(f"INFO: Üretilen cevap ('{response}') filtreleri geçemedi. Alternatif üretiliyor.")
             return generate_alternative_response(question), retrieved_docs # Alternatif ve dokümanları döndür
-        # Cümle Bölme ve Limitleme Mantığı (Burada bir hata vardı, düzeltildi)
         sentences = []
-        # Noktalama işaretlerine göre böl ve boşlukları temizle
         split_by_punctuation = re.split(r'[.!?]', response)
         for s in split_by_punctuation:
             s_stripped = s.strip()
@@ -767,22 +733,21 @@ response = re.sub(r'\s+', ' ', response).strip() # Fazla boşlukları tek boşlu
                 sentences.append(s_stripped)
                 if len(sentences) >= 6: # Maksimum 6 cümle
                     break
         final_response_text = ' '.join(sentences).strip()
         # Eğer filtreleri geçerse ve boş değilse
-        if not final_response_text: # Tüm filtrelerden geçse bile boş kalmışsa
             print("INFO: Filtrelerden geçen cevap boş kaldı. Alternatif üretiliyor.")
             return generate_alternative_response(question), retrieved_docs
         final_response = add_emojis(final_response_text)
         return final_response, retrieved_docs # Cevap ve alınan dokümanları döndür
     except Exception as e:
         print(f"Error generating answer: {e}")
-        # Hata durumunda alternatif cevap döndürürken retrieved_docs'ı da döndürmek daha iyi olabilir
         return generate_alternative_response(question), []
 # === Gradio callback fonksiyonları ===
 def respond(msg: str, chatbot_history: List[List[str]], progress=gr.Progress()) -> Tuple[str, List[List[str]], str, str]:
     if not msg.strip():

         inputs = encoded_inputs["input_ids"]
         attention_mask = encoded_inputs["attention_mask"]
         outputs = model.generate(
             inputs,
             attention_mask=attention_mask,
+            max_new_tokens=150,
             do_sample=True,
             top_p=0.9,
             temperature=gen_params["temperature"],
+            repetition_penalty=gen_params["repetition_penalty"], # RL ajanından gelen değeri kullanmaya devam ediyoruz
+            no_repeat_ngram_size=6, # <<< no_repeat_ngram_size'ı 6'ya yükselttik
             num_beams=1,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id,
         )
+        raw_response_with_prompt = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        # --- Cevap Temizleme ve Post-Processing İyileştirmeleri ---
+        response = raw_response_with_prompt
+        # 1. Prompt'un kendisini ve "Montag:" kısmını cevaptan ayırma
+        match = re.search(r'(?i)Montag:\s*(.*)', response, re.DOTALL)
+        if match:
+            response = match.group(1).strip()
+        else:
+            prompt_decoded_for_comparison = tokenizer.decode(inputs[0], skip_special_tokens=True)
+            if response.startswith(prompt_decoded_for_comparison):
+                response = response[len(prompt_decoded_for_comparison):].strip()
+            else:
+                response = raw_response_with_prompt.strip()
+        # 2. Persona talimatlarının cevapta tekrarlanmasını engelle
         persona_lines = [line.strip() for line in MONTAG_PERSONA.split('\n') if line.strip()]
         for line in persona_lines:
             if response.lower().startswith(line.lower()):
                 response = response[len(line):].strip()
         # 3. Fazladan "Kullanıcı: " veya "Montag: " tekrarlarını ve anlamsız tokenleri temizle
         response = response.replace("<unk>", "").strip()
         response = response.replace(" .", ".").replace(" ,", ",").replace(" ?", "?").replace(" !", "!")
         response = re.sub(r'Kullanıcı:\s*', '', response, flags=re.IGNORECASE)
         response = re.sub(r'Montag:\s*', '', response, flags=re.IGNORECASE)
         if "ETİKETLER:" in response:
             response = response.split("ETİKETLER:", 1)[0].strip()
         response = re.sub(r'\[\s*\.{3,}\s*\]', '', response).strip()
+        # --- Önceki Konuşma ve Tekrar Eden Kalıpları Temizleme ---
+        irrelevant_dialogue_patterns = [
+            # Modelin sürekli tekrarladığı "Nasılsın, iyi misin" ve devamı kalıbı
+            re.escape("Nasılsın, iyi misin \" diye sordu Sesin oldukça tizdi, hatta neredeyse boğuluyordu Sesi artık iyice boğuklaşmıştı Gözlerindeki donukluk ve akıl almaz kararlılık, Montag'ın aklını karıştırıyordu Ne söyleyeceğini bilemiyormuş gibiydi"),
+            re.escape("Ne düşünüyorsun ', sorusuna, — İyi değil miyim (Tıslayarak) Hayır, kötü değil miyim diyerek cevabı yapıştırdı"),
+            # Modelin ürettiği uzun ve alakasız metinler
+            r'ne zaman kendimi, her şeyi daha iyi anlayabileceğim, daha gerçekleştirebileceğim ve her şeyin üstesinden geleceğim bir yere koysam, daha sonra o yerin bana hiçbir şey öğretmediğini ve hiçbir şeyi öğretmediğini fark ediyorum. Ben kendimi daha fazla kandırmak istemiyorum. Ama ben, beni gerçekten etkileyen başka biri tarafından yönetilen bir.',
+            r'her şeyi en ince ayrıntısına kadar anladım ama aynı zamanda da inanılmaz derecede utanıyorum. İnan bana, ben çok utangaçım.'
         ]
+        # Regex desenlerinde özel karakterleri kaçmak için re.escape() kullandık
+        # Aksi takdirde, metin içindeki tırnaklar, parantezler gibi karakterler regex hatasına yol açabilir.
         for pattern in irrelevant_dialogue_patterns:
             response = re.sub(pattern, '', response, flags=re.IGNORECASE).strip()
         response = re.sub(r'\s+', ' ', response).strip()
         # Agresif veya hakaret içeren kelimeleri kontrol et
+        # 'aptal' kelimesini listeden çıkardık, çünkü Montag'ın karakterine uygun olabilir.
+        aggressive_words = ["salak", "gerizekalı", "saçma", "boş konuşma", "kaba", "agresif"]
+        # --- Filtreleme Mantığına Puanlama Sistemi Eklendi ---
         rejection_score = 0
         filter_reasons = []
         if len(response.split()) < 5:
             rejection_score += 2 # Hafif ceza
             filter_reasons.append(f"Çok kısa ({len(response.split())} kelime).")
         # 2. Sadece Harf İçermiyor Kontrolü (Bu genellikle iyi bir filtre)
         if not any(char.isalpha() for char in response):
             rejection_score += 10 # Ciddi ceza
             filter_reasons.append("Hiç harf içermiyor (sadece noktalama/sayı).")
         # 3. Genel/Anlamsız İfade Kontrolü (Listeyi yukarıda temizlemiştik)
         generic_or_nonsense_phrases = [
             "içir unidur", "aligutat fakdam", "tetal inlay", "pessotim elgun", # Modelin ürettiği anlamsız tokenler
             "nisman tarejoglu", "faksom", "achisteloy vandleradia", "vęudis",
             "eltareh", "eldlar", "fotjid", "zuhalibalyon",
             "etiketler:", # Meta bilgi sızıntısı
+            # Sadece gerçekten anlamsız olanları bırakın
+        ]
         triggered_generic_phrases = [phrase for phrase in generic_or_nonsense_phrases if phrase in response.lower()]
         if triggered_generic_phrases:
             rejection_score += len(triggered_generic_phrases) * 3 # Her anlamsız ifade için ceza
             filter_reasons.append(f"Anlamsız/istenmeyen ifade tespit edildi: {triggered_generic_phrases}.")
         # 4. Montag Karakteriyle Alaka Kontrolü (Daha esnek)
+        # Montag'ın iç dünyasına ve genel temalara uygun yeni anahtar kelimeler eklendi
+        montag_keywords = ["kitap", "yakmak", "itfaiyeci", "clarisse", "faber", "beatty", "bilgi", "sansür", "düşünce", "gerçek", "televizyon", "alev", "kül", "mildred", "yangın", "fireman",
+                           "düşünmek", "anlamak", "hissetmek", "arayış", "isyan", "toplum", "cehalet", "yalnızlık", "monotonluk", "gerçeklik"]
         has_montag_relevance = any(keyword in response.lower() for keyword in montag_keywords)
+        # Eğer cevap uzunsa (örneğin 20 kelimeden fazla) ve alakasızsa ceza ver
+        if len(response.split()) > 20 and not has_montag_relevance: # Buradaki kelime sayısını artırabilirsiniz
+            rejection_score += 1 # Cezayı düşürdük
             filter_reasons.append("Montag/bağlamsal anahtar kelime yok ve cevap uzun.")
         # 5. Agresif Kelime Kontrolü
         aggressive_words_found = [word for word in aggressive_words if word in response.lower()]
         if aggressive_words_found:
             rejection_score += 5 # Ciddi ceza
             filter_reasons.append(f"Agresif/istenmeyen kelime tespit edildi: {aggressive_words_found}.")
+        # --- Karar verme eşiği ---
         if rejection_score >= 5: # Bu eşik değerini test ederek ayarlamanız gerekebilir.
             print(f"DEBUG: FİLTRELEME - Cevap YETERSİZ/ANLAMSIZ/ALAKASIZ. Toplam Puan: {rejection_score}")
             for reason in filter_reasons:
                 print(f"  - Sebep: {reason}")
             print(f"INFO: Üretilen cevap ('{response}') filtreleri geçemedi. Alternatif üretiliyor.")
             return generate_alternative_response(question), retrieved_docs # Alternatif ve dokümanları döndür
+        # Cümle Bölme ve Limitleme Mantığı
         sentences = []
         split_by_punctuation = re.split(r'[.!?]', response)
         for s in split_by_punctuation:
             s_stripped = s.strip()
                 sentences.append(s_stripped)
                 if len(sentences) >= 6: # Maksimum 6 cümle
                     break
         final_response_text = ' '.join(sentences).strip()
         # Eğer filtreleri geçerse ve boş değilse
+        if not final_response_text:
             print("INFO: Filtrelerden geçen cevap boş kaldı. Alternatif üretiliyor.")
             return generate_alternative_response(question), retrieved_docs
         final_response = add_emojis(final_response_text)
         return final_response, retrieved_docs # Cevap ve alınan dokümanları döndür
     except Exception as e:
         print(f"Error generating answer: {e}")
         return generate_alternative_response(question), []
 # === Gradio callback fonksiyonları ===
 def respond(msg: str, chatbot_history: List[List[str]], progress=gr.Progress()) -> Tuple[str, List[List[str]], str, str]:
     if not msg.strip():