Tasks

LightevalTask

LightevalTaskConfig

class lighteval.tasks.lighteval_task.LightevalTaskConfig

( name: str prompt_function: typing.Callable[[dict, str], lighteval.tasks.requests.Doc] hf_repo: str hf_subset: str metrics: list[lighteval.metrics.utils.metric_utils.Metric | lighteval.metrics.metrics.Metrics] | tuple[lighteval.metrics.utils.metric_utils.Metric | lighteval.metrics.metrics.Metrics, ...] solver: None = None scorer: None = None sample_fields: typing.Optional[typing.Callable[[dict], inspect_ai.dataset._dataset.Sample]] = None sample_to_fewshot: typing.Optional[typing.Callable[[inspect_ai.dataset._dataset.Sample], str]] = None filter: typing.Optional[typing.Callable[[dict], bool]] = None hf_revision: str | None = None hf_filter: typing.Optional[typing.Callable[[dict], bool]] = None hf_avail_splits: list[str] | tuple[str, ...] = <factory> evaluation_splits: list[str] | tuple[str, ...] = <factory> few_shots_split: str | None = None few_shots_select: str | None = None generation_size: int | None = None generation_grammar: huggingface_hub.inference._generated.types.text_generation.TextGenerationInputGrammarType | None = None stop_sequence: list[str] | tuple[str, ...] | None = None num_samples: list[int] | None = None original_num_docs: int = -1 effective_num_docs: int = -1 must_remove_duplicate_docs: bool = False num_fewshots: int = 0 version: int = 0 )

Parameters

name (str) — Short name of the evaluation task.
prompt_function (Callable[[dict, str], Doc]) — Function that converts dataset row to Doc objects for evaluation. Takes a dataset row dict and task name as input.
hf_repo (str) — HuggingFace Hub repository path containing the evaluation dataset.
hf_subset (str) — Dataset subset/configuration name to use for this task.
metrics (ListLike[Metric | Metrics]) — List of metrics or metric enums to compute for this task.

Configuration dataclass for a LightevalTask.

This class stores all the configuration parameters needed to define and run an evaluation task, including dataset information, prompt formatting, evaluation metrics, and generation parameters.

Dataset Configuration: hf_revision (str | None, optional): Specific dataset revision to use. Defaults to None (latest). hf_filter (Callable[[dict], bool] | None, optional): Filter function to apply to dataset items. Defaults to None. hf_avail_splits (ListLike[str], optional): Available dataset splits. Defaults to [“train”, “validation”, “test”].

Evaluation Splits: evaluation_splits (ListLike[str], optional): Dataset splits to use for evaluation. Defaults to [“validation”]. few_shots_split (str | None, optional): Split to sample few-shot examples from. Defaults to None. few_shots_select (str | None, optional): Method for selecting few-shot examples. Defaults to None.

Generation Parameters: generation_size (int | None, optional): Maximum token length for generated text. Defaults to None. generation_grammar (TextGenerationInputGrammarType | None, optional): Grammar for structured text generation. Only available for TGI and Inference Endpoint models. Defaults to None. stop_sequence (ListLike[str] | None, optional): Sequences that stop text generation. Defaults to None. num_samples (list[int] | None, optional): Number of samples to generate per input. Defaults to None.

Task Configuration: version (int, optional): Task version number. Increment when dataset or prompt changes. Defaults to 0. num_fewshots (int, optional): Number of few-shot examples to include. Defaults to 0. truncate_fewshots (bool, optional): Whether to truncate few-shot examples. Defaults to False. must_remove_duplicate_docs (bool, optional): Whether to remove duplicate documents. Defaults to False.

Document Tracking: original_num_docs (int, optional): Total number of documents in the task. Defaults to -1. effective_num_docs (int, optional): Number of documents actually used in evaluation. Defaults to -1.

Lighteval

Tasks

LightevalTask

LightevalTaskConfig

class lighteval.tasks.lighteval_task.LightevalTaskConfig

LightevalTask

class lighteval.tasks.lighteval_task.LightevalTask

aggregation

download_dataset_worker

eval_docs

fewshot_docs

get_docs

get_first_possible_fewshot_splits

load_datasets

PromptManager

class lighteval.tasks.prompt_manager.PromptManager

prepare_prompt

prepare_prompt_api

Registry

class lighteval.tasks.registry.Registry

create_custom_tasks_module

get_tasks_dump

load_all_task_configs

print_all_tasks

Doc

class lighteval.tasks.requests.Doc

get_golds

Datasets

class lighteval.data.DynamicBatchDataset

get_original_order

splits_iterator

class lighteval.data.LoglikelihoodDataset

class lighteval.data.GenerativeTaskDataset

init_split_limits

class lighteval.data.GenerativeTaskDatasetNanotron

class lighteval.data.GenDistributedSampler