Spaces:

deepsodha
/

axionx-demo

Running

App Files Files Community

deepsodha commited on 25 days ago

Commit

beb5479

verified ·

1 Parent(s): f63e0db

Upload 25 files

Browse files

Files changed (25) hide show

README.md +8 -84
financegpt/README.md +15 -0
financegpt/app.py +25 -0
financegpt/config.yaml +14 -0
financegpt/dataset_loader.py +22 -0
financegpt/evaluate.py +32 -0
financegpt/train.py +52 -0
legaldoc_summarizer/README.md +15 -0
legaldoc_summarizer/app.py +26 -0
legaldoc_summarizer/config.yaml +14 -0
legaldoc_summarizer/dataset_loader.py +22 -0
legaldoc_summarizer/evaluate.py +32 -0
legaldoc_summarizer/train.py +50 -0
retailgpt_evaluator/README.md +13 -0
retailgpt_evaluator/app.py +26 -0
retailgpt_evaluator/config.yaml +10 -0
retailgpt_evaluator/dataset_loader.py +20 -0
retailgpt_evaluator/evaluate.py +34 -0
retailgpt_evaluator/leaderboard.py +9 -0
shared/config.yaml +11 -0
shared/hf_helpers.py +19 -0
shared/metrics.py +20 -0
shared/requirements.txt +22 -0
shared/utils.py +17 -0
streamlit_hub.py +43 -0

README.md CHANGED Viewed

@@ -1,89 +1,13 @@
----
-title: AxionX Digital — AI QA Demo
-sdk: gradio
-app_file: app.py
-emoji: 🧠
-colorFrom: purple
-colorTo: blue
-pinned: false
-license: mit
----
-# 🧠 AxionX Digital — AI Question Answering Demo
-Welcome to **AxionX Digital’s** live demonstration of a fine-tuned **Question Answering Model** built and deployed with [Hugging Face Spaces](https://huggingface.co/spaces).
-This public showcase illustrates our model-training, evaluation, and deployment capabilities.
-It runs on pinned dependencies for **1-year guaranteed stability** — perfect for long-term client demos.
----
-## 🚀 Model Overview
-| Property | Details |
-|-----------|----------|
-| **Base Model** | `distilbert-base-cased-distilled-squad` |
-| **Task** | Extractive Question Answering |
-| **Framework** | Transformers + Gradio |
-| **Deployment** | Hugging Face Spaces (CPU) |
-| **Stability** | Version-pinned for 12 months |
----
-## 💡 Try It Yourself
-1. Paste any paragraph into **Context**.
-2. Ask a natural-language question about it.
-3. Instantly see the extracted **Answer** with confidence score.
-Example Context:
-> AxionX Digital builds model-training tools for AI developers.
-> We fine-tune open-source LLMs for customer-support, finance, and legal domains.
-Example Question:
-> What does AxionX Digital build?
 ---
-## 🧩 Key Features
-- ⚙️ **End-to-End Training Pipeline** (fine-tuning + evaluation + deployment)
-- 🔒 **Privacy-Safe Data Handling** for enterprise use cases
-- 🌐 **Hosted Demos & APIs** — deploy anywhere (Spaces, AWS, or on-prem)
-- 🧾 **Transparent Metrics** — reproducible and version-controlled
----
-## 🏢 About AxionX Digital
-**AxionX Digital** is a next-generation AI engineering startup specializing in:
-- Custom LLM training and fine-tuning
-- Evaluation and benchmarking frameworks
-- Agentic workflow automation
-- Scalable model deployment pipelines
-🌍 **Website:** *coming soon*
-📧 **Contact:** hello@axionxdigital.com
-📱 **LinkedIn:** [linkedin.com/company/axionxdigital](https://linkedin.com/company/axionxdigital)
----
-## 🏗 Tech Stack
-| Layer | Tools |
-|-------|--------|
-| **Training** | 🤗 Transformers / Datasets |
-| **Serving** | Gradio UI / FastAPI |
-| **Infra** | Hugging Face Spaces / Docker / AWS |
-| **Monitoring** | W&B / Prometheus (optional) |
----
-## 💬 License
-MIT License — feel free to fork, modify, and explore.
----
-### 🌟 Built with ❤️ by [AxionX Digital](https://huggingface.co/deepsodha)

+# 🚀 AxionX Digital — Model Training & Evaluation Suite
+A collection of open-source LLM fine-tuning and evaluation demos:
+| Project | Description | Tech |
+|----------|--------------|------|
+| 💰 FinanceGPT | Fine-tuned FLAN-T5 for financial Q&A and summarization | LoRA · HF Transformers |
+| ⚖️ LegalDoc Summarizer | Clause-level summarization using CUAD dataset | FLAN-T5 · PEFT |
+| 🛍️ RetailGPT Evaluator | Benchmarking retail-QA models + leaderboard UI | Evaluation · Streamlit |
 ---
+## 🧩 Structure

financegpt/README.md ADDED Viewed

	@@ -0,0 +1,15 @@

+# 💰 FinanceGPT — AxionX Digital
+**Goal:** Fine-tuned model for financial report Q&A and summarization.
+### Features
+- Fine-tunes FLAN-T5-base on financial sentence dataset
+- LoRA configuration for lightweight training
+- Evaluation (ROUGE / BLEU / factuality)
+- Streamlit demo interface
+### Run on Hugging Face Notebook
+```bash
+!python financegpt/dataset_loader.py
+!python financegpt/train.py
+!python financegpt/evaluate.py

financegpt/app.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import streamlit as st
+from shared.hf_helpers import build_pipeline
+import yaml
+st.set_page_config(page_title="FinanceGPT Demo", page_icon="💰", layout="centered")
+st.title("💰 FinanceGPT — Financial Q&A Demo")
+with open("config.yaml") as f:
+    cfg = yaml.safe_load(f)
+model_name = st.selectbox("Select model:", [cfg["base_model"], "models/financegpt"])
+@st.cache_resource
+def get_pipe(model_name):
+    return build_pipeline(model_name)
+pipe = get_pipe(model_name)
+prompt = st.text_area("Enter a financial statement or question:")
+if st.button("Generate Answer"):
+    if prompt.strip():
+        result = pipe(prompt, max_new_tokens=cfg["demo"]["max_new_tokens"])
+        st.markdown("### 🧠 Answer")
+        st.write(result[0]["generated_text"])

financegpt/config.yaml ADDED Viewed

	@@ -0,0 +1,14 @@

+project: "FinanceGPT"
+base_model: "google/flan-t5-base"
+dataset_name: "AxionX/financegpt-sec-sample"
+train:
+  epochs: 3
+  batch_size: 4
+  lr: 2e-4
+  lora_r: 8
+  lora_alpha: 16
+  lora_dropout: 0.05
+evaluate:
+  metrics: ["rouge", "bleu", "factuality"]
+demo:
+  max_new_tokens: 256

financegpt/dataset_loader.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from datasets import load_dataset
+import pandas as pd
+import os
+def load_finance_dataset():
+    """
+    Loads a small sample of SEC 10-K/10-Q Q&A style data.
+    Replace with your own dataset or HF dataset ID.
+    """
+    dataset = load_dataset("Abirate/financial_phrasebank", split="train[:100]")
+    df = pd.DataFrame(dataset)
+    # Create synthetic QA pairs for demo
+    df["question"] = "Summarize this financial statement: " + df["sentence"]
+    df["answer"] = df["label"].astype(str)
+    dataset_dict = df[["question", "answer"]].to_dict(orient="records")
+    os.makedirs("datasets", exist_ok=True)
+    pd.DataFrame(dataset_dict).to_json("datasets/financegpt_sample.jsonl", orient="records", lines=True)
+    print("✅ Saved dataset to datasets/financegpt_sample.jsonl")
+    return dataset_dict
+if __name__ == "__main__":
+    load_finance_dataset()

financegpt/evaluate.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import json
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from shared.metrics import compute_rouge, compute_bleu, factuality_score
+from shared.utils import print_banner
+def evaluate_model(model_path="models/financegpt"):
+    print_banner("Evaluating FinanceGPT")
+    tokenizer = AutoTokenizer.from_pretrained(model_path)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
+    dataset = load_dataset("json", data_files="datasets/financegpt_sample.jsonl", split="train[:50]")
+    preds, refs = [], []
+    for row in dataset:
+        inputs = tokenizer(row["question"], return_tensors="pt", truncation=True)
+        output = model.generate(**inputs, max_new_tokens=64)
+        preds.append(tokenizer.decode(output[0], skip_special_tokens=True))
+        refs.append(row["answer"])
+    results = {}
+    results.update(compute_rouge(preds, refs))
+    results.update(compute_bleu(preds, refs))
+    results.update(factuality_score(preds, refs))
+    with open("models/financegpt/eval_results.json", "w") as f:
+        json.dump(results, f, indent=2)
+    print("✅ Evaluation complete:", results)
+if __name__ == "__main__":
+    evaluate_model()

financegpt/train.py ADDED Viewed

	@@ -0,0 +1,52 @@

+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
+from peft import LoraConfig, get_peft_model
+from datasets import load_dataset
+from shared.utils import load_yaml_config, ensure_dir, print_banner
+def main():
+    cfg = load_yaml_config("config.yaml")
+    print_banner("Training FinanceGPT")
+    tokenizer = AutoTokenizer.from_pretrained(cfg["base_model"])
+    model = AutoModelForSeq2SeqLM.from_pretrained(cfg["base_model"])
+    # LoRA configuration
+    peft_config = LoraConfig(
+        r=cfg["train"]["lora_r"],
+        lora_alpha=cfg["train"]["lora_alpha"],
+        lora_dropout=cfg["train"]["lora_dropout"],
+        bias="none",
+        task_type="SEQ_2_SEQ_LM",
+    )
+    model = get_peft_model(model, peft_config)
+    dataset = load_dataset("json", data_files="datasets/financegpt_sample.jsonl", split="train")
+    def preprocess(batch):
+        inputs = tokenizer(batch["question"], truncation=True, padding="max_length", max_length=256)
+        labels = tokenizer(batch["answer"], truncation=True, padding="max_length", max_length=256)
+        inputs["labels"] = labels["input_ids"]
+        return inputs
+    tokenized = dataset.map(preprocess, batched=True)
+    args = TrainingArguments(
+        output_dir="models/financegpt",
+        per_device_train_batch_size=cfg["train"]["batch_size"],
+        learning_rate=cfg["train"]["lr"],
+        num_train_epochs=cfg["train"]["epochs"],
+        fp16=torch.cuda.is_available(),
+        save_strategy="epoch",
+    )
+    trainer = Trainer(model=model, args=args, train_dataset=tokenized)
+    trainer.train()
+    ensure_dir("models/financegpt")
+    model.save_pretrained("models/financegpt")
+    tokenizer.save_pretrained("models/financegpt")
+    print("✅ Model saved at models/financegpt")
+if __name__ == "__main__":
+    main()

legaldoc_summarizer/README.md ADDED Viewed

	@@ -0,0 +1,15 @@

+# ⚖️ LegalDoc Summarizer — AxionX Digital
+**Purpose:** Summarize long legal clauses and judgments into short, factual summaries.
+### Key Features
+- Fine-tunes FLAN-T5 on CUAD contract dataset
+- Outputs clause-level summaries with LoRA
+- Evaluates with ROUGE / BLEU / factual overlap
+- Streamlit UI for fast testing
+### Usage
+```bash
+!python legaldoc_summarizer/dataset_loader.py
+!python legaldoc_summarizer/train.py
+!python legaldoc_summarizer/evaluate.py

legaldoc_summarizer/app.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import streamlit as st
+from shared.hf_helpers import build_pipeline
+import yaml
+st.set_page_config(page_title="LegalDoc Summarizer", page_icon="⚖️", layout="wide")
+st.title("⚖️ LegalDoc Summarizer — AxionX Digital")
+with open("config.yaml") as f:
+    cfg = yaml.safe_load(f)
+model_name = st.selectbox("Model:", [cfg["base_model"], "models/legaldoc_summarizer"])
+@st.cache_resource
+def get_pipeline(model_name):
+    return build_pipeline(model_name)
+pipe = get_pipeline(model_name)
+st.write("Paste a contract clause or judgment text below:")
+text = st.text_area("Clause or Legal Text", height=250)
+if st.button("Summarize"):
+    if text.strip():
+        result = pipe(text, max_new_tokens=cfg["demo"]["max_new_tokens"])
+        st.markdown("### 🧾 Summary")
+        st.write(result[0]["generated_text"])

legaldoc_summarizer/config.yaml ADDED Viewed

	@@ -0,0 +1,14 @@

+project: "LegalDocSummarizer"
+base_model: "google/flan-t5-base"
+dataset_name: "cuad"   # Contract Understanding Atticus Dataset
+train:
+  epochs: 3
+  batch_size: 4
+  lr: 2e-4
+  lora_r: 8
+  lora_alpha: 16
+  lora_dropout: 0.05
+evaluate:
+  metrics: ["rouge", "bleu", "factuality"]
+demo:
+  max_new_tokens: 300

legaldoc_summarizer/dataset_loader.py ADDED Viewed

	@@ -0,0 +1,22 @@

+from datasets import load_dataset
+import pandas as pd, os
+def load_legal_dataset():
+    """
+    Loads a small portion of the CUAD dataset (contract clauses).
+    Converts each clause into (document_text, summary) pairs.
+    """
+    dataset = load_dataset("cuad", "cuad_v1", split="train[:200]")
+    df = pd.DataFrame(dataset)
+    df["question_text"] = "Summarize the key legal clause: " + df["question_text"]
+    df["answer"] = df["answers"].apply(lambda a: a[0]["text"][0] if a and a[0]["text"] else "")
+    data = df[["question_text", "answer"]].rename(columns={"question_text": "question"})
+    os.makedirs("datasets", exist_ok=True)
+    data.to_json("datasets/legal_sample.jsonl", orient="records", lines=True)
+    print("✅ Saved sample dataset to datasets/legal_sample.jsonl")
+    return data
+if __name__ == "__main__":
+    load_legal_dataset()

legaldoc_summarizer/evaluate.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import json
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from shared.metrics import compute_rouge, compute_bleu, factuality_score
+from shared.utils import print_banner
+def evaluate_model(model_path="models/legaldoc_summarizer"):
+    print_banner("Evaluating LegalDoc Summarizer")
+    tokenizer = AutoTokenizer.from_pretrained(model_path)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
+    dataset = load_dataset("json", data_files="datasets/legal_sample.jsonl", split="train[:100]")
+    preds, refs = [], []
+    for row in dataset:
+        inputs = tokenizer(row["question"], return_tensors="pt", truncation=True)
+        output = model.generate(**inputs, max_new_tokens=256)
+        preds.append(tokenizer.decode(output[0], skip_special_tokens=True))
+        refs.append(row["answer"])
+    results = {}
+    results.update(compute_rouge(preds, refs))
+    results.update(compute_bleu(preds, refs))
+    results.update(factuality_score(preds, refs))
+    with open("models/legaldoc_summarizer/eval_results.json", "w") as f:
+        json.dump(results, f, indent=2)
+    print("✅ Evaluation complete:", results)
+if __name__ == "__main__":
+    evaluate_model()

legaldoc_summarizer/train.py ADDED Viewed

	@@ -0,0 +1,50 @@

+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, Trainer, TrainingArguments
+from peft import LoraConfig, get_peft_model
+from datasets import load_dataset
+from shared.utils import load_yaml_config, ensure_dir, print_banner
+def main():
+    cfg = load_yaml_config("config.yaml")
+    print_banner("Training LegalDoc Summarizer")
+    tokenizer = AutoTokenizer.from_pretrained(cfg["base_model"])
+    model = AutoModelForSeq2SeqLM.from_pretrained(cfg["base_model"])
+    peft_config = LoraConfig(
+        r=cfg["train"]["lora_r"],
+        lora_alpha=cfg["train"]["lora_alpha"],
+        lora_dropout=cfg["train"]["lora_dropout"],
+        task_type="SEQ_2_SEQ_LM",
+    )
+    model = get_peft_model(model, peft_config)
+    dataset = load_dataset("json", data_files="datasets/legal_sample.jsonl", split="train")
+    def preprocess(batch):
+        inputs = tokenizer(batch["question"], truncation=True, padding="max_length", max_length=512)
+        labels = tokenizer(batch["answer"], truncation=True, padding="max_length", max_length=256)
+        inputs["labels"] = labels["input_ids"]
+        return inputs
+    tokenized = dataset.map(preprocess, batched=True)
+    args = TrainingArguments(
+        output_dir="models/legaldoc_summarizer",
+        per_device_train_batch_size=cfg["train"]["batch_size"],
+        learning_rate=cfg["train"]["lr"],
+        num_train_epochs=cfg["train"]["epochs"],
+        fp16=torch.cuda.is_available(),
+        save_strategy="epoch",
+    )
+    trainer = Trainer(model=model, args=args, train_dataset=tokenized)
+    trainer.train()
+    ensure_dir("models/legaldoc_summarizer")
+    model.save_pretrained("models/legaldoc_summarizer")
+    tokenizer.save_pretrained("models/legaldoc_summarizer")
+    print("✅ Model saved at models/legaldoc_summarizer")
+if __name__ == "__main__":
+    main()

retailgpt_evaluator/README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+# 🛍️ RetailGPT Evaluator — AxionX Digital
+**Purpose:** Evaluate and compare multiple retail QA models on the same dataset.
+### Includes
+- `evaluate.py` → runs metrics across multiple models
+- `leaderboard.py` → aggregates results into ranking
+- `app.py` → Streamlit UI with leaderboard + live model chat
+### Usage
+```bash
+!python retailgpt_evaluator/dataset_loader.py
+!python retailgpt_evaluator/evaluate.py

retailgpt_evaluator/app.py ADDED Viewed

	@@ -0,0 +1,26 @@

+import streamlit as st
+from shared.hf_helpers import build_pipeline
+from leaderboard import build_leaderboard
+import yaml, pandas as pd, os
+st.set_page_config(page_title="RetailGPT Evaluator", page_icon="🛍️", layout="wide")
+st.title("🛍️ RetailGPT Evaluator — AxionX Digital")
+with open("config.yaml") as f:
+    cfg = yaml.safe_load(f)
+if os.path.exists("models/retail_eval_results.json"):
+    df = build_leaderboard()
+    st.subheader("📊 Model Leaderboard")
+    st.dataframe(df, use_container_width=True)
+else:
+    st.warning("Run `evaluate.py` first to generate metrics.")
+model_name = st.selectbox("Choose a model to chat with:", cfg["models"])
+pipe = build_pipeline(model_name)
+query = st.text_area("Customer query:", "I want to return a damaged product.")
+if st.button("Ask Model"):
+    result = pipe(query, max_new_tokens=cfg["demo"]["max_new_tokens"])
+    st.markdown("### 🧠 Model Response")
+    st.write(result[0]["generated_text"])

retailgpt_evaluator/config.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+project: "RetailGPT_Evaluator"
+dataset_name: "axionx/retail_chatqa"
+models:
+  - "google/flan-t5-base"
+  - "tiiuae/falcon-1b"
+  - "mistralai/Mistral-7B-Instruct-v0.2"
+evaluate:
+  metrics: ["rouge", "bleu", "factuality"]
+demo:
+  max_new_tokens: 128

retailgpt_evaluator/dataset_loader.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from datasets import load_dataset
+import pandas as pd, os
+def load_retail_dataset():
+    """
+    Loads a retail/e-commerce QA dataset from HF (small sample)
+    or synthetically creates one for evaluation.
+    """
+    dataset = load_dataset("amazon_polarity", split="train[:200]")
+    df = pd.DataFrame(dataset)
+    df["question"] = "Customer asks about this review: " + df["title"]
+    df["answer"] = df["content"]
+    sample = df[["question", "answer"]]
+    os.makedirs("datasets", exist_ok=True)
+    sample.to_json("datasets/retail_sample.jsonl", orient="records", lines=True)
+    print("✅ Saved datasets/retail_sample.jsonl")
+    return sample
+if __name__ == "__main__":
+    load_retail_dataset()

retailgpt_evaluator/evaluate.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import json
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from shared.metrics import compute_rouge, compute_bleu, factuality_score
+from shared.utils import print_banner
+import torch
+def run_eval_for_model(model_name, dataset):
+    print_banner(f"Evaluating {model_name}")
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+    preds, refs = [], []
+    for row in dataset:
+        inputs = tokenizer(row["question"], return_tensors="pt", truncation=True)
+        with torch.no_grad():
+            outputs = model.generate(**inputs, max_new_tokens=128)
+        preds.append(tokenizer.decode(outputs[0], skip_special_tokens=True))
+        refs.append(row["answer"])
+    r = compute_rouge(preds, refs)
+    b = compute_bleu(preds, refs)
+    f = factuality_score(preds, refs)
+    return {"model": model_name, **r, **b, **f}
+def evaluate_all():
+    from shared.utils import load_yaml_config
+    cfg = load_yaml_config("config.yaml")
+    dataset = load_dataset("json", data_files="datasets/retail_sample.jsonl", split="train[:50]")
+    results = [run_eval_for_model(m, dataset) for m in cfg["models"]]
+    json.dump(results, open("models/retail_eval_results.json", "w"), indent=2)
+    print("✅ Saved results to models/retail_eval_results.json")
+    return results
+if __name__ == "__main__":
+    evaluate_all()

retailgpt_evaluator/leaderboard.py ADDED Viewed

	@@ -0,0 +1,9 @@

+import pandas as pd, json
+def build_leaderboard(path="models/retail_eval_results.json"):
+    data = json.load(open(path))
+    df = pd.DataFrame(data)
+    # create composite score
+    df["score"] = (df["rougeL"] + df["bleu"] + df["factuality"]) / 3
+    df = df.sort_values("score", ascending=False)
+    return df[["model", "rougeL", "bleu", "factuality", "score"]]

shared/config.yaml ADDED Viewed

	@@ -0,0 +1,11 @@

+default_model: "google/flan-t5-base"
+default_dataset_path: "./datasets/sample.jsonl"
+train:
+  batch_size: 4
+  lr: 2e-4
+  epochs: 3
+  lora_r: 8
+  lora_alpha: 16
+  lora_dropout: 0.05
+evaluate:
+  metrics: ["rouge", "bleu", "factuality"]

shared/hf_helpers.py ADDED Viewed

	@@ -0,0 +1,19 @@

+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline
+import torch
+def load_model_and_tokenizer(model_name: str):
+    """Load a model and tokenizer for inference."""
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+    return model, tokenizer
+def generate_answer(model, tokenizer, prompt: str, max_tokens: int = 256):
+    """Generate text output from a model given a prompt."""
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        outputs = model.generate(**inputs, max_new_tokens=max_tokens)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+def build_pipeline(model_name: str, task="text2text-generation"):
+    """Return a Hugging Face pipeline for inference."""
+    return pipeline(task, model=model_name)

shared/metrics.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from datasets import load_metric
+import numpy as np
+def compute_rouge(preds, refs):
+    rouge = load_metric("rouge")
+    return rouge.compute(predictions=preds, references=refs)
+def compute_bleu(preds, refs):
+    bleu = load_metric("bleu")
+    refs = [[r] for r in refs]  # bleu expects list of lists
+    return bleu.compute(predictions=preds, references=refs)
+def factuality_score(preds, refs):
+    """Very simple lexical overlap metric for factual alignment."""
+    scores = []
+    for p, r in zip(preds, refs):
+        p_tokens = set(p.lower().split())
+        r_tokens = set(r.lower().split())
+        scores.append(len(p_tokens & r_tokens) / max(1, len(r_tokens)))
+    return {"factuality": np.mean(scores)}

shared/requirements.txt ADDED Viewed

	@@ -0,0 +1,22 @@

+# Core ML / NLP
+transformers>=4.44.0
+datasets>=2.21.0
+evaluate>=0.4.2
+peft>=0.12.0
+bitsandbytes>=0.43.0
+accelerate>=0.31.0
+torch>=2.3.0
+sentencepiece
+scipy
+numpy
+pandas
+# App / Dashboard
+streamlit>=1.37.0
+plotly>=5.22.0
+fastapi>=0.110.0
+uvicorn>=0.29.0
+# Utility
+pyyaml
+tqdm

shared/utils.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import yaml
+import os
+from pathlib import Path
+def load_yaml_config(path: str):
+    """Load YAML config file safely."""
+    with open(path, "r") as f:
+        return yaml.safe_load(f)
+def ensure_dir(path: str):
+    """Create directory if it doesn't exist."""
+    Path(path).mkdir(parents=True, exist_ok=True)
+def print_banner(title: str):
+    print("=" * (len(title) + 8))
+    print(f"=== {title} ===")
+    print("=" * (len(title) + 8))

streamlit_hub.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import streamlit as st
+import importlib
+st.set_page_config(page_title="AxionX Digital Hub", page_icon="🚀", layout="wide")
+st.title("🚀 AxionX Digital Model Training Suite")
+st.sidebar.title("🧠 Select Demo")
+demo = st.sidebar.radio(
+    "Choose one:",
+    ("💰 FinanceGPT", "⚖️ LegalDoc Summarizer", "🛍️ RetailGPT Evaluator"),
+)
+st.sidebar.markdown("---")
+st.sidebar.markdown("### About AxionX Digital")
+st.sidebar.info(
+    "AxionX Digital fine-tunes and evaluates language models for finance, law, and retail. "
+    "Each demo below runs a real Hugging Face pipeline using open-source models."
+)
+def run_app(path):
+    module = importlib.import_module(path)
+    # When imported directly, Streamlit reruns script blocks,
+    # so just tell the user to open individual apps if local.
+    st.markdown(
+        f"Launching **{demo}**… please run `streamlit run {path.replace('.', '/')}/app.py` "
+        "in a separate terminal if you’re offline."
+    )
+if "FinanceGPT" in demo:
+    st.header("💰 FinanceGPT")
+    st.write("Financial Q&A assistant trained on SEC-style filings.")
+    run_app("financegpt")
+elif "LegalDoc" in demo:
+    st.header("⚖️ LegalDoc Summarizer")
+    st.write("Clause-level summarization of legal documents.")
+    run_app("legaldoc_summarizer")
+else:
+    st.header("🛍️ RetailGPT Evaluator")
+    st.write("Benchmark and chat with multiple retail QA models.")
+    run_app("retailgpt_evaluator")
+st.markdown("---")
+st.caption("© 2025 AxionX Digital — Innovating Tomorrow")