Spaces:

apak
/

MISCNER_Light

Sleeping

App Files Files Community

apak commited on Dec 25, 2025

Commit

cc64dce

verified ·

1 Parent(s): 40da81b

Update ner_logic.py

Browse files

Files changed (1) hide show

ner_logic.py +30 -59

ner_logic.py CHANGED Viewed

@@ -7,94 +7,65 @@ from labels_config import CUSTOM_LABELS
 from prompts import SYSTEM_COT_PROMPT
 import spaces
-# Dil ayarını Türkçe yapalım
 wikipedia.set_lang("tr")
-# 1. NER Modeli (Standart etiketler için)
-ner_pipe = pipeline(
-    "ner",
-    model="xlm-roberta-large-finetuned-conll03-english",
-    aggregation_strategy="simple",
-    device=0 if torch.cuda.is_available() else -1
-)
-# 2. LLM Modeli ve Tokenizer (Muhakeme için)
-model_name = "Qwen/Qwen2.5-1.5B-Instruct"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-llm_model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    dtype="auto",
-    device_map="auto"
-)
 def get_wiki_summary(query):
-    """Wikipedia'dan varlık hakkında kısa özet getirir."""
     try:
-        # En yakın başlığı bul
         search_results = wikipedia.search(query)
-        if not search_results:
-            return None
-        # İlk sonucun özetini al
-        summary = wikipedia.summary(search_results[0], sentences=2, auto_suggest=False)
-        return summary
-    except:
-        return None
 @spaces.GPU
 def refine_labels_batch(misc_items, full_sentence):
-    """MISC varlıkları LLM ile yeniden analiz eder."""
-    if not misc_items:
-        return []
-    # Label kurallarını metne dönüştür
     label_rules = ""
     for k, v in CUSTOM_LABELS.items():
         label_rules += f"### {k}\nTANIM: {v['tanim']}\nANAHTARLAR: {', '.join(v['anahtar_kelimeler'])}\n\n"
-    # Analiz edilecek varlıkları metne dönüştür
     targets_text = "".join([f"- VARLIK: {item['word']} | WIKI: {item['wiki']}\n" for item in misc_items])
-    final_prompt = SYSTEM_COT_PROMPT.format(
-        label_rules=label_rules,
-        full_sentence=full_sentence,
-        targets=targets_text
-    )
     messages = [{"role": "user", "content": final_prompt}]
     text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     model_inputs = tokenizer([text], return_tensors="pt").to(llm_model.device)
     try:
-        generated_ids = llm_model.generate(
-            model_inputs.input_ids,
-            max_new_tokens=1500,
-            do_sample=False
-        )
         output = tokenizer.batch_decode(generated_ids[:, model_inputs.input_ids.shape[1]:], skip_special_tokens=True)[0]
-        # JSON bloğunu ayıkla
         json_match = re.search(r'\[\s*\{.*\}\s*\]', output, re.DOTALL)
         if json_match:
             raw_json = json_match.group(0).strip()
-            # Basit JSON tamamlama
-            if raw_json.count('{') > raw_json.count('}'):
-                raw_json += "}]"
             results = json.loads(raw_json)
-            # app.py'de KeyError almamak için anahtar kontrolü
             for r in results:
-                if 'karar' not in r: r['karar'] = "MISC"
-                if 'reasoning' not in r: r['reasoning'] = "Analiz süreci tamamlanamadı."
-                if 'varlik' not in r: r['varlik'] = "Bilinmeyen"
             return results
-        else:
-            print(f"LLM Yanlış Format Döndürdü: {output}")
-            return []
     except Exception as e:
-        print(f"Süreç Hatası: {str(e)}")
         return []

 from prompts import SYSTEM_COT_PROMPT
 import spaces
 wikipedia.set_lang("tr")
+# Global değişkenler (Başlangıçta None, GPU fonksiyonu içinde yüklenecek)
+_tokenizer = None
+_llm_model = None
+_ner_pipe = None
+def load_models():
+    global _tokenizer, _llm_model, _ner_pipe
+    if _tokenizer is None:
+        model_name = "Qwen/Qwen2.5-1.5B-Instruct"
+        _tokenizer = AutoTokenizer.from_pretrained(model_name)
+        _llm_model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype="auto", device_map="auto")
+        _ner_pipe = pipeline("ner", model="xlm-roberta-large-finetuned-conll03-english", aggregation_strategy="simple", device=0)
+    return _tokenizer, _llm_model, _ner_pipe
 def get_wiki_summary(query):
     try:
         search_results = wikipedia.search(query)
+        if not search_results: return None
+        return wikipedia.summary(search_results[0], sentences=2, auto_suggest=False)
+    except: return None
+def ner_pipe(text):
+    _, _, pipe = load_models()
+    return pipe(text)
 @spaces.GPU
 def refine_labels_batch(misc_items, full_sentence):
+    if not misc_items: return []
+    tokenizer, llm_model, _ = load_models()
     label_rules = ""
     for k, v in CUSTOM_LABELS.items():
         label_rules += f"### {k}\nTANIM: {v['tanim']}\nANAHTARLAR: {', '.join(v['anahtar_kelimeler'])}\n\n"
     targets_text = "".join([f"- VARLIK: {item['word']} | WIKI: {item['wiki']}\n" for item in misc_items])
+    final_prompt = SYSTEM_COT_PROMPT.format(label_rules=label_rules, full_sentence=full_sentence, targets=targets_text)
     messages = [{"role": "user", "content": final_prompt}]
     text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     model_inputs = tokenizer([text], return_tensors="pt").to(llm_model.device)
     try:
+        generated_ids = llm_model.generate(model_inputs.input_ids, max_new_tokens=1000, do_sample=False)
         output = tokenizer.batch_decode(generated_ids[:, model_inputs.input_ids.shape[1]:], skip_special_tokens=True)[0]
         json_match = re.search(r'\[\s*\{.*\}\s*\]', output, re.DOTALL)
         if json_match:
             raw_json = json_match.group(0).strip()
+            if raw_json.count('{') > raw_json.count('}'): raw_json += "}]"
             results = json.loads(raw_json)
+            # KeyError koruması: app.py'nin beklediği anahtarları garanti et
             for r in results:
+                r.setdefault('karar', 'MISC')
+                r.setdefault('reasoning', 'Analiz adımları oluşturulamadı.')
+                r.setdefault('varlik', 'Bilinmeyen')
             return results
+        return []
     except Exception as e:
+        print(f"Hata: {e}")
         return []