Spaces:

Mfischthal
/

DialogueExtractor

Sleeping

App Files Files Community

Mfischthal commited on Oct 17, 2025

Commit

758613a

verified ·

1 Parent(s): fd3e3ef

Upload 6 files

Browse files

Files changed (4) hide show

app.py +138 -119
requirements.txt +1 -1
teacher.py +2 -1
validators.py +1 -0

app.py CHANGED Viewed

@@ -1,135 +1,154 @@
 import os
 import gradio as gr
-from typing import List, Dict, Any
 from data_io import load_from_hub_or_upload
 from teacher import call_teacher, MODEL, INSTRUCTION
 from validators import validate_output
 from exporters import to_jsonl, to_hf_dataset
 SESSION: Dict[str, Any] = {
     "passages": [],
     "records": [],
     "dataset_id": None,
 }
-DESCRIPTION = """### Dialogue→Speaker Dataset Builder
-A Gradio app that prepares passages, generates `Speaker N:`-structured dialogue via the OpenAI API, lets you review & edit, and exports JSONL / HF Datasets."""
-with gr.Blocks(title="Dialogue→Speaker Dataset Builder") as demo:
-    gr.Markdown("# Dialogue→Speaker Dataset Builder")
-    gr.Markdown(DESCRIPTION)
-    with gr.Tab("Data"):
-        src_mode = gr.Radio(["HF Dataset", "Upload .txt"], value="HF Dataset", label="Source")
-        hf_id = gr.Textbox(value="Navanjana/Gutenberg_books", label="HF dataset id (train split)")
-        upload = gr.File(file_types=[".txt"], label="Upload a .txt file")
-        sample = gr.Number(value=200, label="Sample passages (0 = all)")
-        min_words = gr.Number(value=80, label="Min words per passage")
-        chunk = gr.Number(value=1200, label="Chunk size (chars)")
-        btn_prep = gr.Button("Prepare passages")
-        info_data = gr.Markdown()
-    with gr.Tab("Generation"):
-        model_box = gr.Textbox(value=os.getenv("OPENAI_MODEL", MODEL), label="OpenAI model")
-        temperature = gr.Slider(0, 1, value=0.0, step=0.1, label="Temperature")
-        btn_gen = gr.Button("Generate with OpenAI")
-        progress_gen = gr.Markdown()
-        rec_table = gr.Dataframe(headers=["#", "status", "chars"], row_count=(0, "dynamic"))
-    with gr.Tab("Review"):
-        idx = gr.Number(value=0, label="Record #")
-        inp = gr.Textbox(lines=12, label="Input passage", interactive=False)
-        out = gr.Textbox(lines=12, label="Output (edit)")
-        status = gr.Dropdown(["accepted","needs_work","unreviewed"], value="unreviewed", label="Status")
-        btn_load = gr.Button("Load record")
-        btn_save = gr.Button("Save changes")
-        review_msg = gr.Markdown()
-    with gr.Tab("Export"):
-        btn_jsonl = gr.Button("Download JSONL")
-        dl_path = gr.Textbox(label="JSONL path")
-        push_repo = gr.Textbox(value="", label="HF Dataset repo (e.g. yourname/gutenberg_dialogue_v1)")
-        private_toggle = gr.Checkbox(value=True, label="Private repo")
-        btn_push = gr.Button("Push to Hugging Face Hub")
-        export_msg = gr.Markdown()
-    with gr.Tab("Settings"):
-        instr = gr.Textbox(value=INSTRUCTION, lines=14, label="Canonical instruction (read-only)", interactive=False)
-        gr.Markdown("Set `OPENAI_API_KEY` & optional `OPENAI_MODEL` in Space Secrets.")
-    def on_prepare(src_mode, hf_id, upload, sample, min_words, chunk):
-        passages, dataset_id = load_from_hub_or_upload(src_mode, hf_id, upload, int(sample), int(min_words), int(chunk))
-        SESSION["passages"] = passages
-        SESSION["dataset_id"] = dataset_id
-        SESSION["records"] = []
-        return f"Prepared {len(passages)} passages from: {dataset_id}"
-    def on_generate(model_name, temperature):
-        if not SESSION["passages"]:
-            return "No passages prepared yet.", []
-        os.environ["OPENAI_MODEL"] = model_name
-        rows, records, ok, bad = [], [], 0, 0
-        for i, p in enumerate(SESSION["passages"]):
-            y = call_teacher(p, temperature=float(temperature))
-            status = "unreviewed"
-            if y and validate_output(y):
-                ok += 1
-            else:
-                bad += 1
-                y = y or ""
-                status = "needs_work"
-            rec = {
-                "task": "dialogue_format",
-                "instruction": INSTRUCTION,
-                "input": p,
-                "output": y,
-                "meta": {
-                    "chars": len(p),
-                    "model": os.getenv("OPENAI_MODEL", model_name),
-                    "status": status,
-                    "source": "LLM",
-                    "dataset_id": SESSION["dataset_id"]
-                }
             }
-            records.append(rec)
-            rows.append([i, status, len(p)])
-        SESSION["records"] = records
-        return f"Generated {ok} valid, {bad} need work.", rows
-    def on_load(idx):
-        i = int(idx)
-        r = SESSION["records"][i]
-        return r["input"], r["output"], r["meta"]["status"]
-    def on_save(idx, output, status):
-        i = int(idx)
-        SESSION["records"][i]["output"] = output
-        SESSION["records"][i]["meta"]["status"] = status
-        return f"Saved record #{i} as {status}."
-    def on_export_jsonl():
-        path = "workspace/dataset.jsonl"
-        to_jsonl(SESSION["records"], path)
-        return path
-    def on_push(push_repo, private_toggle):
-        if not push_repo:
-            return "Provide a repo name like 'yourname/gutenberg_dialogue_v1'"
-        ds = to_hf_dataset(
-            SESSION["records"],
-            save_to="workspace/hf_dataset",
-            push_repo=push_repo,
-            private=bool(private_toggle),
-            token=os.getenv("HF_TOKEN")
-        )
-        return f"Pushed {len(ds)} records to {push_repo}"
-    btn_prep.click(on_prepare, [src_mode, hf_id, upload, sample, min_words, chunk], [info_data])
-    btn_gen.click(on_generate, [model_box, temperature], [progress_gen, rec_table])
-    btn_load.click(on_load, [idx], [inp, out, status])
-    btn_save.click(on_save, [idx, out, status], [review_msg])
-    btn_jsonl.click(on_export_jsonl, [], [dl_path])
-    btn_push.click(on_push, [push_repo, private_toggle], [export_msg])
 if __name__ == "__main__":
-    demo.launch()

 import os
 import gradio as gr
+from typing import List, Dict, Any, Tuple
+# Local imports
 from data_io import load_from_hub_or_upload
 from teacher import call_teacher, MODEL, INSTRUCTION
 from validators import validate_output
 from exporters import to_jsonl, to_hf_dataset
+# ---------------- State ----------------
 SESSION: Dict[str, Any] = {
     "passages": [],
     "records": [],
     "dataset_id": None,
 }
+DESCRIPTION = (
+    "### Dialogue→Speaker Dataset Builder\n"
+    "Prepare passages, generate `Speaker N:` dialogue via the OpenAI API, "
+    "review & edit, and export JSONL / HF Datasets."
+)
+# ---------------- Callbacks ----------------
+def on_prepare(src_mode: str, hf_id: str, upload, sample: float, min_words: float, chunk: float) -> str:
+    sample_i = int(sample) if sample else 0
+    min_words_i = int(min_words) if min_words else 80
+    chunk_i = int(chunk) if chunk else 1200
+    passages, dataset_id = load_from_hub_or_upload(src_mode, hf_id, upload, sample_i, min_words_i, chunk_i)
+    SESSION["passages"] = passages
+    SESSION["dataset_id"] = dataset_id
+    SESSION["records"] = []
+    return f"Prepared {len(passages)} passages from: {dataset_id}"
+def on_generate(model_name: str, temperature: float) -> Tuple[str, list]:
+    if not SESSION["passages"]:
+        return "No passages prepared yet.", []
+    os.environ["OPENAI_MODEL"] = model_name
+    rows = []
+    records = []
+    ok = bad = 0
+    for i, p in enumerate(SESSION["passages"]):
+        y = call_teacher(p, temperature=float(temperature))
+        status = "unreviewed"
+        if y and validate_output(y):
+            ok += 1
+        else:
+            bad += 1
+            y = y or ""
+            status = "needs_work"
+        rec = {
+            "task": "dialogue_format",
+            "instruction": INSTRUCTION,
+            "input": p,
+            "output": y,
+            "meta": {
+                "chars": len(p),
+                "model": os.getenv("OPENAI_MODEL", model_name),
+                "status": status,
+                "source": "LLM",
+                "dataset_id": SESSION["dataset_id"]
             }
+        }
+        records.append(rec)
+        rows.append([i, status, len(p)])
+    SESSION["records"] = records
+    return f"Generated {ok} valid, {bad} need work.", rows
+def on_load(idx: float) -> Tuple[str, str, str]:
+    i = int(idx)
+    r = SESSION["records"][i]
+    return r["input"], r["output"], r["meta"]["status"]
+def on_save(idx: float, output: str, status: str) -> str:
+    i = int(idx)
+    SESSION["records"][i]["output"] = output
+    SESSION["records"][i]["meta"]["status"] = status
+    return f"Saved record #{i} as {status}."
+def on_export_jsonl() -> str:
+    path = "workspace/dataset.jsonl"
+    to_jsonl(SESSION["records"], path)
+    return path
+def on_push(push_repo: str, private_toggle: bool) -> str:
+    if not push_repo:
+        return "Provide a repo name like 'yourname/gutenberg_dialogue_v1'"
+    ds = to_hf_dataset(
+        SESSION["records"],
+        save_to="workspace/hf_dataset",
+        push_repo=push_repo,
+        private=bool(private_toggle),
+        token=os.getenv("HF_TOKEN")
+    )
+    return f"Pushed {len(ds)} records to {push_repo}"
+# ---------------- UI ----------------
+def build_ui():
+    with gr.Blocks(title="Dialogue→Speaker Dataset Builder", theme=gr.themes.Default()) as demo:
+        gr.Markdown("# Dialogue→Speaker Dataset Builder")
+        gr.Markdown(DESCRIPTION)
+        with gr.Tab("Data"):
+            src_mode = gr.Radio(["HF Dataset", "Upload .txt"], value="HF Dataset", label="Source")
+            hf_id = gr.Textbox(value="Navanjana/Gutenberg_books", label="HF dataset id (train split)")
+            upload = gr.File(file_types=[".txt"], label="Upload a .txt file")
+            sample = gr.Number(value=200, label="Sample passages (0 = all)")
+            min_words = gr.Number(value=80, label="Min words per passage")
+            chunk = gr.Number(value=1200, label="Chunk size (chars)")
+            btn_prep = gr.Button("Prepare passages")
+            info_data = gr.Markdown()
+        with gr.Tab("Generation"):
+            model_box = gr.Textbox(value=os.getenv("OPENAI_MODEL", MODEL), label="OpenAI model")
+            temperature = gr.Slider(0, 1, value=0.0, step=0.1, label="Temperature")
+            btn_gen = gr.Button("Generate with OpenAI")
+            progress_gen = gr.Markdown()
+            rec_table = gr.Dataframe(value=[], headers=["#", "status", "chars"], row_count=0, col_count=3, interactive=False)
+        with gr.Tab("Review"):
+            idx = gr.Number(value=0, label="Record #")
+            inp = gr.Textbox(lines=12, label="Input passage", interactive=False)
+            out = gr.Textbox(lines=12, label="Output (edit)")
+            status = gr.Dropdown(["accepted","needs_work","unreviewed"], value="unreviewed", label="Status")
+            btn_load = gr.Button("Load record")
+            btn_save = gr.Button("Save changes")
+            review_msg = gr.Markdown()
+        with gr.Tab("Export"):
+            btn_jsonl = gr.Button("Download JSONL")
+            dl_path = gr.Textbox(label="JSONL path")
+            push_repo = gr.Textbox(value="", label="HF Dataset repo (e.g. yourname/gutenberg_dialogue_v1)")
+            private_toggle = gr.Checkbox(value=True, label="Private repo")
+            btn_push = gr.Button("Push to Hugging Face Hub")
+            export_msg = gr.Markdown()
+        with gr.Tab("Settings"):
+            instr = gr.Textbox(value=INSTRUCTION, lines=14, label="Canonical instruction (read-only)", interactive=False)
+            gr.Markdown("Set `OPENAI_API_KEY` & optional `OPENAI_MODEL` in Space Secrets.")
+        # Wire callbacks
+        btn_prep.click(on_prepare, [src_mode, hf_id, upload, sample, min_words, chunk], [info_data])
+        btn_gen.click(on_generate, [model_box, temperature], [progress_gen, rec_table])
+        btn_load.click(on_load, [idx], [inp, out, status])
+        btn_save.click(on_save, [idx, out, status], [review_msg])
+        btn_jsonl.click(on_export_jsonl, [], [dl_path])
+        btn_push.click(on_push, [push_repo, private_toggle], [export_msg])
+    return demo
+demo = build_ui()
 if __name__ == "__main__":
+    demo.launch()

requirements.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-gradio>=4.44.0
 datasets>=3.0.0
 ftfy
 regex

+gradio>=4.44.1
 datasets>=3.0.0
 ftfy
 regex

teacher.py CHANGED Viewed

@@ -19,7 +19,8 @@ Requirements:
 """
 MODEL = os.getenv("OPENAI_MODEL", "gpt-4o-mini")
-client = OpenAI()
 STRICT_SUFFIX = "\n\nIMPORTANT: Every line must start with 'Speaker N: ' and include at least two lines."
 def call_teacher(passage: str, temperature: float = 0.0, max_retries: int = 2) -> Optional[str]:

 """
 MODEL = os.getenv("OPENAI_MODEL", "gpt-4o-mini")
+client = OpenAI()  # uses OPENAI_API_KEY
 STRICT_SUFFIX = "\n\nIMPORTANT: Every line must start with 'Speaker N: ' and include at least two lines."
 def call_teacher(passage: str, temperature: float = 0.0, max_retries: int = 2) -> Optional[str]:

validators.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import regex as re
 SPEAKER_LINE = re.compile(r"^(Speaker\s+\d+):\s")
 def validate_output(text: str, min_lines: int = 2, max_speaker_index: int = 9) -> bool:

 import regex as re
 SPEAKER_LINE = re.compile(r"^(Speaker\s+\d+):\s")
 def validate_output(text: str, min_lines: int = 2, max_speaker_index: int = 9) -> bool: