Refactor: strip all options + produce plain-text answer

- Remove all option lines from question body (not just distractors)
- Strip leading 'Soru:' / 'Question:' prefix
- Rewrite assistant message to only the correct option's plain text
- More robust answer-letter regex for '**Cevap:** **B) ...**' style

Files changed (2) hide show

README.md +16 -15
filter_correct_answer.py +103 -51

README.md CHANGED Viewed

@@ -12,7 +12,7 @@ tags:
 # Multiple-Choice Correct-Answer Filter
-Çoktan seçmeli SFT dataset'lerinde **sorulardaki yanlış şıkları silip sadece doğru cevabı bırakan** küçük bir Python aracı.
 Fizik, matematik, tarih gibi derslere özgü kurulmamıştır — `conversations` veya `messages` formatındaki herhangi bir JSONL çoktan seçmeli veri setinde çalışır.
@@ -20,24 +20,25 @@ Fizik, matematik, tarih gibi derslere özgü kurulmamıştır — `conversations
 **Önce:**
 ```
-Soru: Termodinamiğin birinci yasası neyi ifade eder?
-A) Entropi her zaman artar
-B) Enerji korunur
-C) Mutlak sıcaklık sıfıra ulaşılamaz
-D) Isı soğuktan sıcağa akar
-Cevap: B) Enerji korunur
 ```
-**Sonra (filtre uygulanmış):**
 ```
-Soru: Termodinamiğin birinci yasası neyi ifade eder?
-B) Enerji korunur
-Cevap: B) Enerji korunur
 ```
-Asistan mesajına dokunmaz, sadece soru gövdesindeki distractor'ları siler.
 ## Desteklenen formatlar
@@ -47,7 +48,7 @@ Asistan mesajına dokunmaz, sadece soru gövdesindeki distractor'ları siler.
 | `messages` | `[{"role": "user/assistant", "content": "..."}]` |
 Desteklenen cevap prefixleri:
-- Türkçe: `Cevap: B)`, `Doğru cevap: B`, `**Cevap:** B`
 - İngilizce: `Answer: B`, `The answer is B`, `**Answer:** B`, `B is correct`
 A–Z arası harfler (fizik80k örneklerinde A–J'ye kadar şık olabiliyor).
@@ -62,7 +63,7 @@ wget https://huggingface.co/MRBeDev/mc-answer-filter/resolve/main/filter_correct
 ## Kullanım
-**1) HF'ten otomatik indir + temizle (3 split birden):**
 ```bash
 export HF_TOKEN=hf_...  # private dataset için
@@ -114,7 +115,7 @@ python3 filter_correct_answer.py \
 ## Dataset bütünlüğü
-Default olarak çoktan seçmeli olmayan kayıtlar **olduğu gibi** geçirilir, böylece dataset boyutu korunur. Sadece çoktan seçmeli soruların içi temizlenir. `--drop-non-mc` ile bu davranışı değiştirebilirsin.
 ## Lisans

 # Multiple-Choice Correct-Answer Filter
+Çoktan seçmeli SFT dataset'lerinde **şıkları tamamen kaldırıp soruyu saf metne indiren ve cevap mesajını doğru şıkkın düz metnine çeviren** küçük bir Python aracı.
 Fizik, matematik, tarih gibi derslere özgü kurulmamıştır — `conversations` veya `messages` formatındaki herhangi bir JSONL çoktan seçmeli veri setinde çalışır.
 **Önce:**
 ```
+user:      Soru: Termodinamiğin birinci yasası neyi ifade eder?
+           A) Entropi her zaman artar
+           B) Enerji korunur
+           C) Mutlak sıcaklık sıfıra ulaşılamaz
+           D) Isı soğuktan sıcağa akar
+assistant: Cevap: B) Enerji korunur
 ```
+**Sonra:**
 ```
+user:      Termodinamiğin birinci yasası neyi ifade eder?
+assistant: Enerji korunur
 ```
+- Soru metnindeki tüm şık satırları ve "Soru:" / "Question:" prefix'i temizlenir.
+- Cevap mesajı, doğru şıkkın harf/prefix'siz düz metnine dönüşür.
+- Serbest metinli (çoktan seçmeli olmayan) kayıtlar varsayılan olarak olduğu gibi geçirilir.
 ## Desteklenen formatlar
 | `messages` | `[{"role": "user/assistant", "content": "..."}]` |
 Desteklenen cevap prefixleri:
+- Türkçe: `Cevap: B)`, `Doğru cevap: B`, `**Cevap:** **B) ...**`
 - İngilizce: `Answer: B`, `The answer is B`, `**Answer:** B`, `B is correct`
 A–Z arası harfler (fizik80k örneklerinde A–J'ye kadar şık olabiliyor).
 ## Kullanım
+**1) HF'ten otomatik indir + temizle (tüm split'ler birden):**
 ```bash
 export HF_TOKEN=hf_...  # private dataset için
 ## Dataset bütünlüğü
+Default olarak çoktan seçmeli olmayan kayıtlar **olduğu gibi** geçirilir, böylece dataset boyutu korunur. Sadece çoktan seçmeli soruların içi temizlenir ve cevap mesajı sadeleştirilir. `--drop-non-mc` ile bu davranışı değiştirebilirsin.
 ## Lisans

filter_correct_answer.py CHANGED Viewed

@@ -1,9 +1,22 @@
 #!/usr/bin/env python3
 """
-HF dataset temizleyici: Çoktan seçmeli sorulardan doğru cevap dışındaki şıkları siler.
 Hazırlayan: Behlül
 Desteklenen dataset formatları (fizik, tarih, matematik için aynı script):
   - conversations: [{"from": "human/gpt", "value": "..."}]
   - messages:      [{"role": "user/assistant", "content": "..."}]
@@ -41,16 +54,17 @@ OPTION_LINE_RE = re.compile(
     re.MULTILINE,
 )
-# Cevap harfini çıkarmak için pattern'lar (öncelik sırasına göre)
 ANSWER_PATTERNS = [
-    # "Cevap: B)" / "Cevap: **B**" / "Cevap : B."
-    re.compile(r'[Cc]evap\s*[:\-]\s*\*{0,2}\s*([A-Z])\b'),
     # "Doğru cevap: B"
-    re.compile(r'[Dd]o[ğg]ru\s+cevap\s*[:\-]\s*\*{0,2}\s*([A-Z])\b'),
-    # "**Answer:** B" / "Answer: B"
-    re.compile(r'\*{0,2}\s*[Aa]nswer\s*\*{0,2}\s*[:\-]\s*\*{0,2}\s*([A-Z])\b'),
     # "The answer is B" / "the correct answer is B"
-    re.compile(r'[Tt]he\s+(?:correct\s+)?answer\s+is\s*[:\-]?\s*\*{0,2}\s*([A-Z])\b'),
     # "**B** is correct" / "B is the correct answer"
     re.compile(r'\*{0,2}([A-Z])\*{0,2}\s+is\s+(?:the\s+)?correct'),
     # Son çare: metin sonunda tek başına duran tek büyük harf
@@ -69,53 +83,86 @@ def extract_correct_letter(answer_text: str) -> str | None:
     return None
 def find_option_letters(question: str) -> set[str]:
     """Sorudaki seçenek harflerini bulur (ör. {'A','B','C','D'})."""
     return {m.upper() for m in OPTION_LINE_RE.findall(question)}
-def strip_distractors(question: str, correct_letter: str) -> tuple[str, bool]:
     """
-    Sorudan doğru şık dışındaki bütün seçenek satırlarını siler.
-    Aynı seçenek birden fazla satıra yayılabileceği için "bu seçenek bloğu
-    hangi harfle başladı" state'ini takip ediyoruz.
     """
-    lines = question.split('\n')
-    out = []
-    current_letter = None  # şu anda hangi şıkkın içindeyiz
-    removed_any = False
-    kept_correct = False
-    for line in lines:
-        m = re.match(r'^\s*\*{0,2}\s*([A-Z])\s*\*{0,2}\s*[\)\.\-]\s*', line)
         if m:
             current_letter = m.group(1).upper()
-            if current_letter == correct_letter:
-                out.append(line)
-                kept_correct = True
             else:
-                removed_any = True
-                # skip (doğru şık değil)
-        else:
-            # devam satırı mı yoksa normal soru metni mi?
-            is_blank = line.strip() == ''
-            if current_letter is None:
-                # soru gövdesi — her zaman tut
-                out.append(line)
-            else:
-                # bir şıkkın devamı
-                if is_blank:
-                    # boş satır şıkkın bittiğini gösterir
-                    current_letter = None
-                    out.append(line)
-                elif current_letter == correct_letter:
-                    out.append(line)
-                # else: yanlış şıkkın devam satırı — at
-                # Cevap: / Answer: gibi ipuçları gelirse şıkkı bitir
-                if re.match(r'^\s*\*{0,2}\s*(Cevap|Answer|Doğru cevap)\b', line, re.IGNORECASE):
-                    current_letter = None
-    return '\n'.join(out), (removed_any and kept_correct)
 # ---------- Kayıt işleme ----------
@@ -161,26 +208,31 @@ def process_record(rec: dict) -> tuple[dict, bool, str]:
     if not isinstance(question, str) or not isinstance(answer, str):
         return rec, False, 'non_string_content'
-    option_letters = find_option_letters(question)
-    if len(option_letters) < 2:
         return rec, False, 'not_multichoice'
     correct_letter = extract_correct_letter(answer)
     if not correct_letter:
         return rec, False, 'no_correct_letter'
-    if correct_letter not in option_letters:
         return rec, False, f'answer_letter_{correct_letter}_not_in_options'
-    new_question, changed = strip_distractors(question, correct_letter)
-    if not changed:
-        return rec, False, 'no_distractors_stripped'
-    # Immutable kopya
     new_rec = dict(rec)
     new_msgs = [dict(m) for m in msgs]
     new_msgs[user_idx] = dict(new_msgs[user_idx])
     new_msgs[user_idx][content_key] = new_question
     if 'conversations' in rec:
         new_rec['conversations'] = new_msgs

 #!/usr/bin/env python3
 """
+HF dataset temizleyici: Çoktan seçmeli sorulardan şıkları tamamen kaldırır,
+soruyu saf metne indirir ve cevap mesajını doğru şıkkın düz metnine çevirir.
 Hazırlayan: Behlül
+Girdi örneği:
+  user:      "Soru: Termodinamiğin birinci yasası neyi ifade eder?
+              A) Kütle korunur
+              B) Enerji korunur
+              C) Entropi azalır
+              D) Hiçbiri"
+  assistant: "Cevap: B) Enerji korunur"
+Çıktı:
+  user:      "Termodinamiğin birinci yasası neyi ifade eder?"
+  assistant: "Enerji korunur"
 Desteklenen dataset formatları (fizik, tarih, matematik için aynı script):
   - conversations: [{"from": "human/gpt", "value": "..."}]
   - messages:      [{"role": "user/assistant", "content": "..."}]
     re.MULTILINE,
 )
+# Cevap harfini çıkarmak için pattern'lar (öncelik sırasına göre).
+# "[\s\*]*" ile aradaki birden fazla bold işareti / whitespace kombinasyonu esnek yakalanır.
 ANSWER_PATTERNS = [
+    # "Cevap: B)" / "Cevap: **B**" / "**Cevap:** **B) ..."
+    re.compile(r'[Cc]evap\s*[:\-][\s\*]*([A-Z])\b'),
     # "Doğru cevap: B"
+    re.compile(r'[Dd]o[ğg]ru\s+cevap\s*[:\-][\s\*]*([A-Z])\b'),
+    # "Answer: B" / "**Answer:** B" / "**Answer:** **B**"
+    re.compile(r'[\s\*]*[Aa]nswer[\s\*]*[:\-][\s\*]*([A-Z])\b'),
     # "The answer is B" / "the correct answer is B"
+    re.compile(r'[Tt]he\s+(?:correct\s+)?answer\s+is[\s\*:\-]*([A-Z])\b'),
     # "**B** is correct" / "B is the correct answer"
     re.compile(r'\*{0,2}([A-Z])\*{0,2}\s+is\s+(?:the\s+)?correct'),
     # Son çare: metin sonunda tek başına duran tek büyük harf
     return None
+# Şık satırı başlığı + metni aynı regex ile yakala ("B) Enerji korunur" → ("B", "Enerji korunur"))
+OPTION_HEADER_RE = re.compile(
+    r'^\s*\*{0,2}\s*([A-Z])\s*\*{0,2}\s*[\)\.\-]\s*(.*)$'
+)
+# Soru metninin başındaki "Soru:" / "Question:" etiketi
+QUESTION_PREFIX_RE = re.compile(
+    r'^\s*\*{0,2}\s*(?:Soru|Question|Q)\s*\*{0,2}\s*[:\-]\s*',
+    re.IGNORECASE,
+)
 def find_option_letters(question: str) -> set[str]:
     """Sorudaki seçenek harflerini bulur (ör. {'A','B','C','D'})."""
     return {m.upper() for m in OPTION_LINE_RE.findall(question)}
+def parse_options(question: str) -> dict[str, str]:
     """
+    Sorudaki tüm şıkları {harf: metin} sözlüğü olarak döndürür.
+    Şıkın birden fazla satıra yayılması durumunda devam satırlarını
+    cümlenin bir parçası olarak birleştirir.
     """
+    options: dict[str, str] = {}
+    current_letter: str | None = None
+    current_lines: list[str] = []
+    def flush():
+        nonlocal current_letter, current_lines
+        if current_letter is not None:
+            options[current_letter] = '\n'.join(current_lines).strip()
+        current_letter = None
+        current_lines = []
+    for line in question.split('\n'):
+        m = OPTION_HEADER_RE.match(line)
         if m:
+            flush()
             current_letter = m.group(1).upper()
+            current_lines = [m.group(2)]
+            continue
+        if current_letter is not None:
+            if line.strip() == '':
+                flush()
             else:
+                current_lines.append(line)
+    flush()
+    return options
+def clean_question_text(question: str) -> str:
+    """Soru gövdesini çıkarır — tüm şık satırlarını ve 'Soru:' prefix'ini temizler."""
+    lines = question.split('\n')
+    body: list[str] = []
+    in_option_block = False
+    for line in lines:
+        if OPTION_HEADER_RE.match(line):
+            in_option_block = True
+            continue
+        if in_option_block:
+            # Boş satır şık bloğunu bitirir; devam satırları atılır
+            if line.strip() == '':
+                in_option_block = False
+            continue
+        body.append(line)
+    text = '\n'.join(body)
+    text = QUESTION_PREFIX_RE.sub('', text, count=1)
+    text = re.sub(r'\n{3,}', '\n\n', text).strip()
+    return text
+def clean_option_text(text: str) -> str:
+    """Şık metninden başlangıçtaki harf prefix'i, bold işaretleri ve artık noktalamayı temizler."""
+    t = text.strip()
+    # Yineli prefix: "**B)** Enerji korunur" gibi
+    t = re.sub(r'^\*{0,2}\s*[A-Z]\s*\*{0,2}\s*[\)\.\-]\s*', '', t)
+    t = t.replace('**', '').strip()
+    t = t.rstrip('.').strip()
+    return t
 # ---------- Kayıt işleme ----------
     if not isinstance(question, str) or not isinstance(answer, str):
         return rec, False, 'non_string_content'
+    options = parse_options(question)
+    if len(options) < 2:
         return rec, False, 'not_multichoice'
     correct_letter = extract_correct_letter(answer)
     if not correct_letter:
         return rec, False, 'no_correct_letter'
+    correct_text = options.get(correct_letter)
+    if not correct_text:
         return rec, False, f'answer_letter_{correct_letter}_not_in_options'
+    new_question = clean_question_text(question)
+    new_answer = clean_option_text(correct_text)
+    if not new_question.strip() or not new_answer.strip():
+        return rec, False, 'empty_after_clean'
+    # Immutable kopya — hem soru hem cevap mesajı güncellenir
     new_rec = dict(rec)
     new_msgs = [dict(m) for m in msgs]
     new_msgs[user_idx] = dict(new_msgs[user_idx])
     new_msgs[user_idx][content_key] = new_question
+    new_msgs[asst_idx] = dict(new_msgs[asst_idx])
+    new_msgs[asst_idx][content_key] = new_answer
     if 'conversations' in rec:
         new_rec['conversations'] = new_msgs