Matrix-Corp
/

Zenith-7b-V1

Text Generation

Mixture of Experts

Model card Files Files and versions

Zenith-7b-V1 / data /__init__.py

Zandy-Wandy's picture

Upload Zenith-7B model

8d18b7c verified 9 days ago

history blame contribute delete

1.02 kB

	"""Ultra-sophisticated data pipeline for OpenThoughts-1.2M and custom datasets."""

	from .openthoughts_processor import OpenThoughtsProcessor, OpenThoughtsDataset
	from .advanced_tokenizer import AdvancedTokenizer, TokenizerManager
	from .quality_filter import QualityFilter, filter_dataset
	from .curriculum_sampler import CurriculumSampler, DifficultyAwareSampler
	from .data_augmentation import DataAugmenter, augment_sample
	from .preprocessing import preprocess_conversation, extract_thoughts, format_for_training
	from .utils import compute_length_statistics, analyze_dataset_quality

	__all__ = [
	"OpenThoughtsProcessor",
	"OpenThoughtsDataset",
	"AdvancedTokenizer",
	"TokenizerManager",
	"QualityFilter",
	"filter_dataset",
	"CurriculumSampler",
	"DifficultyAwareSampler",
	"DataAugmenter",
	"augment_sample",
	"preprocess_conversation",
	"extract_thoughts",
	"format_for_training",
	"compute_length_statistics",
	"analyze_dataset_quality",
	]