#!/usr/bin/env python3 # Copyright (C) 2024 Louis Chua Bean Chong # # This file is part of OpenLLM. # # OpenLLM is dual-licensed: # 1. For open source use: GNU General Public License v3.0 # 2. For commercial use: Commercial License (contact for details) # # See LICENSE and docs/LICENSES.md for full license information. """ OpenLLM - Main CLI Entry Point This module provides a unified command-line interface for all OpenLLM operations including data preparation, tokenizer training, model training, and inference. Usage: python core/src/main.py [options] Available Commands: prepare-data Download and prepare training data from SQUAD dataset train-tokenizer Train a SentencePiece tokenizer on the prepared data test-model Test and validate model architecture train-model Train the language model inference Run model inference (coming soon) evaluate Evaluate model performance (coming soon) Examples: # Full pipeline python core/src/main.py prepare-data python core/src/main.py train-tokenizer --vocab-size 32000 python core/src/main.py test-model --model-size small python core/src/main.py train-model --model-size small --output-dir models/my-model # Help for specific commands python core/src/main.py train-model --help """ import argparse import os import sys from pathlib import Path # Set console encoding for Windows compatibility if sys.platform == "win32": import codecs sys.stdout = codecs.getwriter("utf-8")(sys.stdout.detach()) sys.stderr = codecs.getwriter("utf-8")(sys.stderr.detach()) # Add the current directory to Python path for imports sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) try: from download_and_prepare import prepare_training_data from model_test import ModelTester from train_tokenizer import ( count_training_sentences, save_huggingface_config, test_tokenizer, train_sentencepiece_tokenizer, validate_input_file, ) except ImportError as e: print(f"Error importing modules: {e}") print("Make sure you're running this from the correct directory.") sys.exit(1) def cmd_prepare_data(args): """Execute data preparation command.""" print("🗂️ Starting data preparation...") print(f"Output path: {args.output}") print(f"Minimum words per passage: {args.min_words}") try: prepare_training_data(output_path=args.output, min_words=args.min_words) print("✅ Data preparation completed successfully!") return True except Exception as e: print(f"❌ Data preparation failed: {e}") return False def cmd_train_tokenizer(args): """Execute tokenizer training command.""" print("🔤 Starting tokenizer training...") print(f"Input: {args.input}") print(f"Output directory: {args.output_dir}") print(f"Vocabulary size: {args.vocab_size:,}") print(f"Model type: {args.model_type}") try: # Step 1: Validate input validate_input_file(args.input) # Step 2: Count training data sentence_count = count_training_sentences(args.input) # Step 3: Train tokenizer config = train_sentencepiece_tokenizer( input_path=args.input, output_dir=args.output_dir, vocab_size=args.vocab_size, model_type=args.model_type, character_coverage=args.character_coverage, max_sentence_length=args.max_sentence_length, ) # Step 4: Save Hugging Face config save_huggingface_config(args.output_dir, config) # Step 5: Test tokenizer (unless skipped) if not args.no_test: model_path = os.path.join(args.output_dir, "tokenizer.model") test_tokenizer(model_path) print("✅ Tokenizer training completed successfully!") print(f"📁 Output: {args.output_dir}") print(f"📊 Vocabulary size: {config['vocab_size']:,}") print(f"📄 Training sentences: {sentence_count:,}") return True except Exception as e: print(f"❌ Tokenizer training failed: {e}") return False def cmd_train_model(args): """Execute model training command.""" print("🏗️ Starting model training...") try: import os import torch from data_loader import TextDataLoader from train_model import ModelTrainer, create_model # Determine device if args.device == "auto": device = "cuda" if torch.cuda.is_available() else "cpu" else: device = args.device print(f"Device: {device}") # Create model print(f"Creating {args.model_size} model...") model = create_model(args.model_size) # Create data loader print("Setting up data loader...") tokenizer_path = os.path.join(args.tokenizer_dir, "tokenizer.model") if not os.path.exists(tokenizer_path): print(f"❌ Tokenizer not found at {tokenizer_path}") print( "Please run: python core/src/main.py train-tokenizer --input data/clean/training_data.txt" ) return False data_loader = TextDataLoader( data_file=args.data_file, tokenizer_path=tokenizer_path, seq_len=args.seq_len, batch_size=args.batch_size, shuffle=True, ) # Get data statistics _ = data_loader.get_data_stats() # Create trainer print("Setting up trainer...") trainer = ModelTrainer( model=model, data_loader=data_loader, output_dir=args.output_dir, device=device, learning_rate=args.learning_rate, max_steps=args.max_steps, warmup_steps=args.warmup_steps, gradient_accumulation_steps=args.gradient_accumulation_steps, save_every=args.save_every, ) # Resume from checkpoint if specified if args.resume: trainer._load_checkpoint(args.resume) # Start training trainer.train() return True except Exception as e: print(f"❌ Training failed: {e}") import traceback traceback.print_exc() return False def cmd_inference(args): """ Execute model inference command. This function implements text generation using trained OpenLLM models. It supports multiple model formats and provides flexible generation options. Args: args: Namespace containing CLI arguments including: - model_path: Path to trained model directory - prompt: Input text prompt for generation - max_length: Maximum number of tokens to generate - temperature: Sampling temperature (0.1-2.0) - format: Model format (auto-detect by default) Returns: bool: True if inference succeeded, False otherwise Implementation Details: - Auto-detects model format (PyTorch, Hugging Face, ONNX) - Uses inference_server.py's OpenLLMInference class for generation - Supports configurable generation parameters - Handles errors gracefully with informative messages """ print("🚀 OpenLLM Model Inference") print("=" * 40) try: # Import inference functionality # We import here to avoid circular imports and handle missing dependencies import os import sys sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) from inference_server import OpenLLMInference # Validate model path exists # Early validation prevents confusing error messages later model_path = Path(args.model_path) if not model_path.exists(): print(f"❌ Model path not found: {args.model_path}") print(" Please check the path and try again.") return False # Initialize inference engine # This handles model loading and format detection automatically print(f"📂 Loading model from: {args.model_path}") inference_engine = OpenLLMInference( model_path=str(model_path), model_format=getattr(args, "format", "auto"), # Default to auto-detection ) # Prepare generation parameters # These parameters control the quality and style of generated text generation_params = { "max_length": args.max_length, "temperature": getattr(args, "temperature", 0.7), # Default temperature "top_k": getattr(args, "top_k", 40), # Default top-k "top_p": getattr(args, "top_p", 0.9), # Default nucleus sampling "num_return_sequences": getattr(args, "num_sequences", 1), # Default single sequence } print(f"💭 Generating text for prompt: '{args.prompt}'") print( f"⚙️ Parameters: max_length={generation_params['max_length']}, " f"temperature={generation_params['temperature']}" ) # Generate text using the inference engine # This is the core functionality that produces the output import time start_time = time.time() generated_texts = inference_engine.generate(prompt=args.prompt, **generation_params) generation_time = time.time() - start_time # Display results with formatting # Clear presentation helps users understand the output print("\n✨ Generated Text:") print("-" * 50) for i, text in enumerate(generated_texts, 1): if len(generated_texts) > 1: print(f"\n[Sequence {i}]") print(text) print("-" * 50) print(f"⏱️ Generation time: {generation_time:.2f} seconds") print(f"📊 Tokens generated: ~{len(generated_texts[0].split())}") print(f"🎯 Model: {inference_engine.config.get('model_name', 'OpenLLM')}") return True except ImportError as e: print(f"❌ Missing dependencies for inference: {e}") print(" Please install: pip install fastapi uvicorn") return False except Exception as e: print(f"❌ Inference failed: {e}") import traceback traceback.print_exc() return False def cmd_evaluate(args): """ Execute model evaluation command. This function implements comprehensive model evaluation including intrinsic metrics (perplexity) and downstream task performance assessment. Args: args: Namespace containing CLI arguments including: - model_path: Path to trained model directory - eval_data: Path to evaluation dataset (optional) - metrics: Comma-separated list of metrics to compute - output_dir: Directory to save evaluation results - format: Model format (auto-detect by default) Returns: bool: True if evaluation succeeded, False otherwise Implementation Details: - Uses evaluate_model.py's ModelEvaluator class for comprehensive testing - Computes perplexity on held-out data if provided - Runs downstream task evaluation (reading comprehension, sentiment, etc.) - Generates detailed evaluation report with metrics and examples - Saves results to JSON file for further analysis """ print("📊 OpenLLM Model Evaluation") print("=" * 40) try: # Import evaluation functionality # We import here to avoid circular imports and handle missing dependencies import json import os import sys from pathlib import Path sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) from evaluate_model import ModelEvaluator # Validate model path exists # Early validation prevents confusing error messages later model_path = Path(args.model_path) if not model_path.exists(): print(f"❌ Model path not found: {args.model_path}") print(" Please check the path and try again.") return False # Determine output directory for results # Create output directory if it doesn't exist output_dir = Path(getattr(args, "output_dir", "evaluation_results")) output_dir.mkdir(parents=True, exist_ok=True) # Parse requested metrics # Default to comprehensive evaluation if not specified requested_metrics = getattr(args, "metrics", "perplexity,generation,downstream").split(",") requested_metrics = [m.strip() for m in requested_metrics] print(f"📂 Loading model from: {args.model_path}") print(f"📋 Requested metrics: {', '.join(requested_metrics)}") print(f"💾 Results will be saved to: {output_dir}") # Initialize model evaluator # This handles model loading and tokenizer setup evaluator = ModelEvaluator( model_dir=str(model_path), tokenizer_path=getattr(args, "tokenizer_path", None), # Auto-detect if not provided ) # Prepare evaluation results container # This will store all evaluation metrics and examples evaluation_results = { "model_info": { "model_path": str(model_path), "model_name": evaluator.config.get("model_name", "OpenLLM"), "parameters": evaluator.model.get_num_params(), "evaluation_time": None, }, "metrics": {}, "examples": {}, "summary": {}, } import time start_time = time.time() # 1. Perplexity Evaluation # This measures how well the model predicts the next token if "perplexity" in requested_metrics: print("\n🔍 Computing perplexity...") eval_data_path = getattr(args, "eval_data", None) if eval_data_path and Path(eval_data_path).exists(): # Use provided evaluation data perplexity_result = evaluator.evaluate_perplexity(eval_data_path) else: # Use a subset of training data for perplexity calculation print(" No eval data provided, using default test set") perplexity_result = evaluator.evaluate_perplexity() evaluation_results["metrics"]["perplexity"] = perplexity_result print(f" ✅ Perplexity: {perplexity_result.get('perplexity', 'N/A'):.2f}") print(f" 📊 Loss: {perplexity_result.get('loss', 'N/A'):.4f}") # 2. Text Generation Quality Assessment # This evaluates the coherence and quality of generated text if "generation" in requested_metrics: print("\n✍️ Evaluating text generation quality...") generation_result = evaluator.evaluate_text_generation() evaluation_results["metrics"]["generation"] = generation_result evaluation_results["examples"]["generation"] = generation_result.get("examples", []) print( f" ✅ Average quality score: {generation_result.get('average_quality', 'N/A'):.2f}" ) print(f" 📝 Generated {len(generation_result.get('examples', []))} examples") # 3. Downstream Task Evaluation # This tests specific capabilities like reading comprehension if "downstream" in requested_metrics: print("\n🎯 Evaluating downstream tasks...") downstream_result = evaluator.evaluate_downstream_tasks() evaluation_results["metrics"]["downstream"] = downstream_result evaluation_results["examples"]["downstream"] = { task: result.get("examples", []) for task, result in downstream_result.items() } # Display summary of downstream results for task_name, task_result in downstream_result.items(): accuracy = task_result.get("accuracy", 0) * 100 print(f" ✅ {task_name.replace('_', ' ').title()}: {accuracy:.1f}%") # Calculate total evaluation time evaluation_time = time.time() - start_time evaluation_results["model_info"]["evaluation_time"] = evaluation_time # Generate evaluation summary # This provides a high-level overview of model performance summary = { "overall_score": 0.0, # Will be calculated based on available metrics "strengths": [], "weaknesses": [], "recommendations": [], } # Calculate overall score based on available metrics scores = [] if "perplexity" in evaluation_results["metrics"]: ppl = evaluation_results["metrics"]["perplexity"].get("perplexity", float("inf")) # Convert perplexity to 0-100 score (lower perplexity is better) ppl_score = max(0, 100 - (ppl - 10) * 5) # Rough conversion scores.append(ppl_score) if ppl < 15: summary["strengths"].append("Good language modeling (low perplexity)") else: summary["weaknesses"].append("High perplexity indicates poor language modeling") if "generation" in evaluation_results["metrics"]: gen_score = evaluation_results["metrics"]["generation"].get("average_quality", 0) * 100 scores.append(gen_score) if gen_score > 70: summary["strengths"].append("High-quality text generation") else: summary["weaknesses"].append("Text generation needs improvement") if "downstream" in evaluation_results["metrics"]: downstream_scores = [] for task_result in evaluation_results["metrics"]["downstream"].values(): downstream_scores.append(task_result.get("accuracy", 0) * 100) if downstream_scores: avg_downstream = sum(downstream_scores) / len(downstream_scores) scores.append(avg_downstream) if avg_downstream > 50: summary["strengths"].append("Good performance on downstream tasks") else: summary["weaknesses"].append("Poor downstream task performance") # Calculate overall score if scores: summary["overall_score"] = sum(scores) / len(scores) # Add recommendations based on performance if summary["overall_score"] < 40: summary["recommendations"].extend( [ "Consider training for more steps", "Verify training data quality", "Check model architecture and hyperparameters", ] ) elif summary["overall_score"] < 70: summary["recommendations"].extend( [ "Model shows promise - consider extended training", "Fine-tune on specific downstream tasks", ] ) else: summary["recommendations"].append("Model performs well - ready for deployment") evaluation_results["summary"] = summary # Save detailed results to file # This allows for further analysis and comparison between models results_file = output_dir / f"evaluation_results_{int(time.time())}.json" with open(results_file, "w") as f: json.dump(evaluation_results, f, indent=2, default=str) # Display comprehensive results summary print("\n" + "=" * 60) print("📊 EVALUATION SUMMARY") print("=" * 60) print(f"🎯 Overall Score: {summary['overall_score']:.1f}/100") print(f"⏱️ Evaluation Time: {evaluation_time:.1f} seconds") if summary["strengths"]: print("\n✅ Strengths:") for strength in summary["strengths"]: print(f" • {strength}") if summary["weaknesses"]: print("\n⚠️ Areas for Improvement:") for weakness in summary["weaknesses"]: print(f" • {weakness}") if summary["recommendations"]: print("\n💡 Recommendations:") for rec in summary["recommendations"]: print(f" • {rec}") print(f"\n💾 Detailed results saved to: {results_file}") print("🎉 Evaluation completed successfully!") return True except ImportError as e: print(f"❌ Missing dependencies for evaluation: {e}") print(" Please check that all required packages are installed.") return False except Exception as e: print(f"❌ Evaluation failed: {e}") import traceback traceback.print_exc() return False def cmd_test_model(args): """Execute model testing command.""" print("🧪 Testing model architecture...") try: # Initialize model tester tester = ModelTester(device=args.device) if args.all_sizes: # Test all model sizes test_sizes = ["small", "medium", "large"] all_success = True for size in test_sizes: print(f"\n{'='*20} Testing {size.upper()} Model {'='*20}") results = tester.run_comprehensive_test(size) if not results["initialization"]["success"]: all_success = False print(f"❌ {size.upper()} model failed initialization") else: print(f"✓ {size.upper()} model passed all tests") return all_success else: # Test single model size results = tester.run_comprehensive_test(args.model_size) if args.save_results: import json with open(args.save_results, "w") as f: json.dump(results, f, indent=2) print(f"\n💾 Results saved to {args.save_results}") return results["initialization"]["success"] except Exception as e: print(f"❌ Model testing failed: {e}") return False def create_parser(): """Create the main argument parser with subcommands.""" parser = argparse.ArgumentParser( description="OpenLLM - Open Source Large Language Model Training Pipeline", formatter_class=argparse.RawDescriptionHelpFormatter, epilog=""" Examples: # Prepare training data from SQUAD dataset python core/src/main.py prepare-data --output data/clean/training_data.txt # Train tokenizer with custom settings python core/src/main.py train-tokenizer \\ --input data/clean/training_data.txt \\ --vocab-size 32000 \\ --output-dir data/tokenizer/ # Get help for specific commands python core/src/main.py train-tokenizer --help """, ) parser.add_argument("--version", action="version", version="OpenLLM v0.1.0") # Create subparsers for different commands subparsers = parser.add_subparsers(dest="command", help="Available commands", required=True) # Data preparation command parser_data = subparsers.add_parser( "prepare-data", help="Download and prepare training data from SQUAD dataset", description="Downloads SQUAD v1.1 and v2.0 datasets, extracts Wikipedia passages, and prepares clean training text.", ) parser_data.add_argument( "--output", default="data/clean/training_data.txt", help="Output path for cleaned training data (default: data/clean/training_data.txt)", ) parser_data.add_argument( "--min-words", type=int, default=10, help="Minimum number of words per passage (default: 10)", ) parser_data.set_defaults(func=cmd_prepare_data) # Tokenizer training command parser_tokenizer = subparsers.add_parser( "train-tokenizer", help="Train a SentencePiece tokenizer on prepared data", description="Trains a BPE or Unigram tokenizer using SentencePiece on the prepared training text.", ) parser_tokenizer.add_argument("--input", required=True, help="Path to training text file") parser_tokenizer.add_argument( "--vocab-size", type=int, default=32000, help="Vocabulary size (default: 32000)" ) parser_tokenizer.add_argument( "--model-type", choices=["bpe", "unigram"], default="bpe", help="Tokenization algorithm (default: bpe)", ) parser_tokenizer.add_argument( "--output-dir", default="data/tokenizer/", help="Output directory for tokenizer files (default: data/tokenizer/)", ) parser_tokenizer.add_argument( "--character-coverage", type=float, default=0.9995, help="Character coverage (default: 0.9995)", ) parser_tokenizer.add_argument( "--max-sentence-length", type=int, default=4192, help="Maximum sentence length (default: 4192)", ) parser_tokenizer.add_argument( "--no-test", action="store_true", help="Skip tokenizer testing after training" ) parser_tokenizer.set_defaults(func=cmd_train_tokenizer) # Model testing command parser_test = subparsers.add_parser( "test-model", help="Test and validate model architecture", description="Test model initialization, forward pass, memory usage, and tokenizer integration.", ) parser_test.add_argument( "--model-size", choices=["small", "medium", "large"], default="medium", help="Model size to test (default: medium)", ) parser_test.add_argument("--all-sizes", action="store_true", help="Test all model sizes") parser_test.add_argument( "--device", choices=["cpu", "cuda", "auto"], default="auto", help="Device to use for testing (default: auto)", ) parser_test.add_argument("--save-results", help="Save test results to JSON file") parser_test.set_defaults(func=cmd_test_model) # Model training command parser_model = subparsers.add_parser( "train-model", help="Train the language model", description="Train a GPT-style transformer language model on tokenized text.", ) parser_model.add_argument( "--model-size", choices=["small", "medium", "large"], default="small", help="Model size to train (default: small)", ) parser_model.add_argument( "--tokenizer-dir", default="data/tokenizer/", help="Path to trained tokenizer directory (default: data/tokenizer/)", ) parser_model.add_argument( "--data-file", default="data/clean/training_data.txt", help="Path to training text file (default: data/clean/training_data.txt)", ) parser_model.add_argument( "--output-dir", required=True, help="Output directory for model checkpoints" ) parser_model.add_argument( "--seq-len", type=int, default=512, help="Sequence length for training (default: 512)" ) parser_model.add_argument( "--batch-size", type=int, default=4, help="Batch size (default: 4, reduce for low memory)" ) parser_model.add_argument( "--learning-rate", type=float, default=3e-4, help="Learning rate (default: 3e-4)" ) parser_model.add_argument( "--max-steps", type=int, default=10000, help="Maximum training steps (default: 10000)" ) parser_model.add_argument( "--warmup-steps", type=int, default=1000, help="Warmup steps (default: 1000)" ) parser_model.add_argument( "--gradient-accumulation-steps", type=int, default=4, help="Gradient accumulation steps (default: 4)", ) parser_model.add_argument( "--device", choices=["cpu", "cuda", "auto"], default="auto", help="Training device (default: auto)", ) parser_model.add_argument("--resume", help="Path to checkpoint to resume training from") parser_model.add_argument( "--save-every", type=int, default=1000, help="Save checkpoint every N steps (default: 1000)" ) parser_model.set_defaults(func=cmd_train_model) # Inference command (placeholder) parser_inference = subparsers.add_parser( "inference", help="Run model inference (coming soon)", description="Generate text using a trained model.", ) parser_inference.add_argument("--model-path", required=True, help="Path to trained model") parser_inference.add_argument("--prompt", required=True, help="Input text prompt") parser_inference.add_argument( "--max-length", type=int, default=256, help="Maximum generation length" ) parser_inference.set_defaults(func=cmd_inference) # Evaluation command (placeholder) parser_eval = subparsers.add_parser( "evaluate", help="Evaluate model performance (coming soon)", description="Evaluate model on various benchmarks and metrics.", ) parser_eval.add_argument("--model-path", required=True, help="Path to trained model") parser_eval.add_argument("--eval-data", help="Path to evaluation dataset") parser_eval.add_argument( "--metrics", nargs="+", default=["perplexity"], help="Metrics to compute" ) parser_eval.set_defaults(func=cmd_evaluate) # --- Optional: Enterprise module integration --- # Load enterprise-only CLI commands if an external module is available. # This preserves the core's open-source nature while allowing private # extensions to register additional commands without modifying core code. try: from enterprise_integration import load_enterprise_cli if load_enterprise_cli(subparsers): print("🧩 Enterprise extensions detected and loaded") else: # No enterprise plugin found (normal for open-source-only usage) pass except Exception as e: # Never fail core CLI due to enterprise integration issues print(f"Warning: Enterprise integration failed: {e}") return parser def main(): """Main entry point for the OpenLLM CLI.""" parser = create_parser() args = parser.parse_args() print("🚀 OpenLLM - Open Source Large Language Model") print("=" * 60) # Execute the selected command success = args.func(args) # Exit with appropriate code if success: print("\n🎉 Command completed successfully!") sys.exit(0) else: print("\n❌ Command failed or not implemented yet.") sys.exit(1) if __name__ == "__main__": main()