import dataclasses
import functools
import logging
import platform
from typing import Any, Optional, Dict, Tuple

import etils.epath as epath
import flax.nnx as nnx
from flax.training import common_utils
import flax.traverse_util as traverse_util
import jax
import jax.experimental
import jax.numpy as jnp
import numpy as np
import optax
import tqdm_loggable.auto as tqdm
import wandb
import numpy as np

import openpi.models.model as _model
import openpi.shared.array_typing as at
import openpi.shared.nnx_utils as nnx_utils
import openpi.training.checkpoints as _checkpoints
import openpi.training.config as _config
import openpi.training.data_loader as _data_loader
import openpi.training.optimizer as _optimizer
import openpi.training.sharding as sharding
import openpi.training.utils as training_utils
import openpi.training.weight_loaders as _weight_loaders
from flax.nnx import rnglib
from openpi.models.pi0_fast import Pi0FAST, make_attn_mask


@dataclasses.dataclass
class OftTrainingConfig:
    """openvla-oft"""

    use_l1_regression: bool = False
    use_diffusion: bool = True
    use_discrete_tokens: bool = False

    num_diffusion_steps_train: int = 25
    diffusion_beta_start: float = 0.0001
    diffusion_beta_end: float = 0.00005

    grad_accumulation_steps: int = 1

    use_val_set: bool = False
    val_freq: int = 10_000


class DiffusionScheduler:
    
    def __init__(self, num_train_timesteps: int, beta_start: float = 0.0001, beta_end: float = 0.02):
        self.num_train_timesteps = num_train_timesteps
        self.beta_start = beta_start
        self.beta_end = beta_end
        
        self.betas = jnp.linspace(beta_start, beta_end, num_train_timesteps)
        self.alphas = 1.0 - self.betas
        self.alphas_cumprod = jnp.cumprod(self.alphas)
        self.alphas_cumprod_prev = jnp.concatenate([jnp.array([1.0]), self.alphas_cumprod[:-1]])
        
        self.variance = (1 - self.alphas_cumprod_prev) / (1 - self.alphas_cumprod)
        self.variance = jnp.concatenate([jnp.array([0.0]), self.variance[1:]])
        
        self.timesteps = jnp.arange(0, num_train_timesteps)
    
    def set_timesteps(self, num_inference_steps: int):
        self.num_inference_steps = num_inference_steps
        step_ratio = self.num_train_timesteps // num_inference_steps
        self.timesteps = jnp.arange(0, self.num_train_timesteps, step_ratio)
    
    def step(self, model_output: jnp.ndarray, timestep: int, sample: jnp.ndarray) -> Dict[str, jnp.ndarray]:
        # DDIM step
        alpha_cumprod = self.alphas_cumprod[timestep]
        alpha_cumprod_prev = self.alphas_cumprod_prev[timestep]
        
        # predict x_0
        pred_original_sample = (sample - jnp.sqrt(1 - alpha_cumprod) * model_output) / jnp.sqrt(alpha_cumprod)
        
        # predict x_{t-1}
        pred_sample_direction = jnp.sqrt(1 - alpha_cumprod_prev) * model_output
        prev_sample = jnp.sqrt(alpha_cumprod_prev) * pred_original_sample + pred_sample_direction
        
        return {"prev_sample": prev_sample}


class TimeEncoder(nnx.Module):
    
    def __init__(self, llm_dim: int, rngs: at.KeyArrayLike | None = None):
        super().__init__()
        self.llm_dim = llm_dim
        if rngs is None:
            rngs = jax.random.key(0)
        rngs_obj = rnglib.Rngs(params=rngs)
        self.time_embedding = nnx.Linear(1, llm_dim, rngs=rngs_obj)
        self.time_mlp = nnx.Sequential(
            nnx.Linear(llm_dim, llm_dim, rngs=rngs_obj),
            nnx.relu,
            nnx.Linear(llm_dim, llm_dim, rngs=rngs_obj),
        )
    
    def __call__(self, timesteps: jnp.ndarray) -> jnp.ndarray:
        # timesteps: (batch_size,)
        timesteps = timesteps.astype(jnp.float32)
        time_emb = self.time_embedding(timesteps[:, None])  # (batch_size, llm_dim)
        time_emb = self.time_mlp(time_emb)
        return time_emb


class DiffusionActionHead(nnx.Module):
    
    def __init__(self, input_dim: int, hidden_dim: int, action_dim: int, num_diffusion_steps: int, rngs: at.KeyArrayLike | None = None):
        super().__init__()
        self.input_dim = input_dim
        self.hidden_dim = hidden_dim
        self.action_dim = action_dim
        self.num_diffusion_steps_train = num_diffusion_steps
        
        if rngs is None:
            rngs = jax.random.key(0)
        rngs_obj = rnglib.Rngs(params=rngs)

        # noise predictor
        self.noise_predictor = nnx.Sequential(
            nnx.Linear(input_dim, hidden_dim, rngs=rngs_obj),
            nnx.relu,
            nnx.Linear(hidden_dim, hidden_dim, rngs=rngs_obj),
            nnx.relu,
            nnx.Linear(hidden_dim, action_dim, rngs=rngs_obj),
        )
        
        # time encoder
        self.time_encoder = TimeEncoder(hidden_dim, rngs=rngs)
        
        # diffusion scheduler
        self.noise_scheduler = DiffusionScheduler(num_diffusion_steps)
    
    def sample_noisy_actions(self, actions: jnp.ndarray, rng: at.KeyArrayLike) -> Dict[str, jnp.ndarray]:
        batch_size = actions.shape[0]
        
        # sample timesteps
        timesteps = jax.random.randint(rng, (batch_size,), 0, self.num_diffusion_steps_train)
        
        # generate noise
        noise = jax.random.normal(rng, actions.shape)
        
        # add noise to actions
        alpha_cumprod = self.noise_scheduler.alphas_cumprod[timesteps]
        alpha_cumprod = alpha_cumprod.reshape(-1, 1, 1)  # (batch_size, 1, 1)
        
        noisy_actions = jnp.sqrt(alpha_cumprod) * actions + jnp.sqrt(1 - alpha_cumprod) * noise
        
        # time step encoding
        diffusion_timestep_embeddings = self.time_encoder(timesteps)
        
        return {
            "noise": noise,
            "noisy_actions": noisy_actions,
            "diffusion_timestep_embeddings": diffusion_timestep_embeddings,
            "timesteps": timesteps,
        }
    
    def predict_noise(self, hidden_states: jnp.ndarray) -> jnp.ndarray: 
        return self.noise_predictor(hidden_states)


class NoisyActionProjector(nnx.Module):
    
    def __init__(self, input_dim: int, llm_dim: int, rngs: at.KeyArrayLike | None = None):
        super().__init__()
        self.llm_dim = llm_dim
        if rngs is None:
            rngs = jax.random.key(0)
        rngs_obj = rnglib.Rngs(params=rngs)
        self.projection = nnx.Linear(input_dim, llm_dim, rngs=rngs_obj)
    
    def __call__(self, noisy_actions: jnp.ndarray) -> jnp.ndarray:
        return self.projection(noisy_actions)


def init_logging():
    """Custom logging format for better readability."""
    level_mapping = {"DEBUG": "D", "INFO": "I", "WARNING": "W", "ERROR": "E", "CRITICAL": "C"}

    class CustomFormatter(logging.Formatter):
        def format(self, record):
            record.levelname = level_mapping.get(record.levelname, record.levelname)
            return super().format(record)

    formatter = CustomFormatter(
        fmt="%(asctime)s.%(msecs)03d [%(levelname)s] %(message)-80s (%(process)d:%(filename)s:%(lineno)s)",
        datefmt="%H:%M:%S",
    )

    logger = logging.getLogger()
    logger.setLevel(logging.INFO)
    logger.handlers[0].setFormatter(formatter)


def init_wandb(config: _config.TrainConfig, oft_config: OftTrainingConfig, *, resuming: bool, log_code: bool = False, enabled: bool = True):
    if not enabled:
        wandb.init(mode="disabled")
        return

    ckpt_dir = config.checkpoint_dir
    if not ckpt_dir.exists():
        raise FileNotFoundError(f"Checkpoint directory {ckpt_dir} does not exist.")
    
    if resuming:
        run_id = (ckpt_dir / "wandb_id.txt").read_text().strip()
        wandb.init(id=run_id, resume="must", project=config.project_name)
    else:
        # openvla-oft run_id
        run_id = f"{config.exp_name}+oft"
        
        # LoRA
        try:
            if hasattr(config.model, 'paligemma_variant') and 'lora' in str(config.model.paligemma_variant):
                run_id += "+lora"
        except:
            pass
        if config.ema_decay is None:
            run_id += "+no_ema"
        
        # training mode
        if oft_config.use_l1_regression:
            run_id += "+l1_regression"
        if oft_config.use_diffusion:
            run_id += "+diffusion"
        if oft_config.use_discrete_tokens:
            run_id += "+discrete"
            
        wandb.init(
            name=run_id,
            config={
                **dataclasses.asdict(config),
                **dataclasses.asdict(oft_config)
            },
            project=config.project_name,
        )
        if wandb.run is not None:
            (ckpt_dir / "wandb_id.txt").write_text(wandb.run.id)

    if log_code and wandb.run is not None:
        wandb.run.log_code(str(epath.Path(__file__).parent.parent))


def _load_weights_and_validate(loader: _weight_loaders.WeightLoader, params_shape: at.Params) -> at.Params:
    """Loads and validates the weights. Returns a loaded subset of the weights."""
    loaded_params = loader.load(params_shape)
    at.check_pytree_equality(expected=params_shape, got=loaded_params, check_shapes=True, check_dtypes=True)

    # Remove jax.ShapeDtypeStruct from the loaded params. This makes sure that only the loaded params are returned.
    return traverse_util.unflatten_dict(
        {k: v for k, v in traverse_util.flatten_dict(loaded_params).items() if not isinstance(v, jax.ShapeDtypeStruct)}
    )


def apply_lora_to_model(model, config: _config.TrainConfig):
    # LoRA
    try:
        if hasattr(config.model, 'paligemma_variant') and 'lora' in str(config.model.paligemma_variant):
            logging.info(f"Detected LoRA configuration: {config.model.paligemma_variant}")
            return model
    except:
        pass
    
    return model


def create_diffusion_components(config: _config.TrainConfig, oft_config: OftTrainingConfig, rng: at.KeyArrayLike):
    if not oft_config.use_diffusion:
        return None, None
    
    llm_dim = 2048  # get from model config
    action_dim = config.model.action_dim
    action_horizon = config.model.action_horizon
    
    # create diffusion action head
    diffusion_action_head = DiffusionActionHead(
        input_dim=llm_dim,
        hidden_dim=llm_dim,
        action_dim=action_dim,
        num_diffusion_steps=oft_config.num_diffusion_steps_train,
        rngs=rng
    )
    
    # create noisy action projector
    noisy_action_projector = NoisyActionProjector(
        input_dim=action_dim,  # only use action_dim
        llm_dim=llm_dim,
        rngs=rng
    )
    
    return diffusion_action_head, noisy_action_projector


def lora_mask(tree):
    def is_lora(path, v):
        return any('lora' in str(p) for p in path)
    return jax.tree_util.tree_map_with_path(lambda path, v: is_lora(path, v), tree)


@at.typecheck
def init_train_state(
    config: _config.TrainConfig,
    oft_config: OftTrainingConfig,
    init_rng: at.KeyArrayLike, 
    mesh: jax.sharding.Mesh, 
    tx,
    *, 
    resume: bool
) -> tuple[training_utils.TrainState, Any]:
    def init(rng: at.KeyArrayLike, partial_params: at.Params | None = None) -> training_utils.TrainState:
        rng, model_rng = jax.random.split(rng)
        model = config.model.create(model_rng)
        model = apply_lora_to_model(model, config)
        diffusion_action_head, noisy_action_projector = create_diffusion_components(config, oft_config, model_rng)
        if partial_params is not None:
            graphdef, state = nnx.split(model)
            state.replace_by_pure_dict(partial_params)
            model = nnx.merge(graphdef, state)
        params = nnx.state(model)
        params = nnx_utils.state_map(params, config.freeze_filter, lambda p: p.replace(p.value.astype(jnp.bfloat16)))
        # use main tx
        return training_utils.TrainState(
            step=0,
            params=params,
            model_def=nnx.graphdef(model),
            tx=tx,
            opt_state=tx.init(params),
            ema_decay=config.ema_decay,
            ema_params=None if config.ema_decay is None else params,
        )
    train_state_shape = jax.eval_shape(init, init_rng)
    state_sharding = sharding.fsdp_sharding(train_state_shape, mesh, log=True)
    if resume:
        return train_state_shape, state_sharding
    partial_params = _load_weights_and_validate(config.weight_loader, train_state_shape.params.to_pure_dict())
    replicated_sharding = jax.sharding.NamedSharding(mesh, jax.sharding.PartitionSpec())
    train_state = jax.jit(
        init,
        donate_argnums=(1,),
        in_shardings=replicated_sharding,
        out_shardings=state_sharding,
    )(init_rng, partial_params)
    return train_state, state_sharding

# TODO: modify L1 loss in the future
def compute_l1_loss(predicted_actions: jnp.ndarray, ground_truth_actions: jnp.ndarray) -> jnp.ndarray:
    return jnp.mean(jnp.abs(predicted_actions - ground_truth_actions))


def compute_diffusion_loss(predicted_noise: jnp.ndarray, target_noise: jnp.ndarray) -> jnp.ndarray:
    return jnp.mean((predicted_noise - target_noise) ** 2)


def run_diffusion_sampling(
    model: _model.BaseModel,
    diffusion_action_head: DiffusionActionHead,
    noisy_action_projector: NoisyActionProjector,
    observation: _model.Observation,
    actions: _model.Actions,
    rng: at.KeyArrayLike,
    oft_config: OftTrainingConfig,
) -> jnp.ndarray:
    """diffusion sampling, main model and NoisyActionProjector are involved, adapt to Pi0FAST"""
    batch_size = actions.shape[0]
    action_dim = actions.shape[-1]
    action_horizon = actions.shape[1]

    # generate random noise as starting point
    noise = jax.random.normal(rng, (batch_size, action_horizon, action_dim))

    # set diffusion scheduler
    diffusion_action_head.noise_scheduler.set_timesteps(oft_config.num_diffusion_steps_train)

    curr_noisy_actions = noise

    def diffusion_step(carry, timestep):
        curr_noisy_actions = carry
        timesteps = jnp.full((batch_size,), timestep)
        # time step embedding
        diffusion_timestep_embeddings = diffusion_action_head.time_encoder(timesteps)  # (batch, llm_dim)
        diffusion_timestep_embeddings = jnp.expand_dims(diffusion_timestep_embeddings, 1)  # (batch, 1, llm_dim)
        diffusion_timestep_embeddings = jnp.tile(diffusion_timestep_embeddings, (1, action_horizon, 1))  # (batch, action_horizon, llm_dim)

        # Pi0FAST
        if not isinstance(model, Pi0FAST):
            raise ValueError("run_diffusion_sampling only supports Pi0FAST main model!")
        obs_token_emb, input_mask, ar_mask = model.embed_inputs(observation)  # (batch, obs_seq_len, llm_dim)
        # embedding
        noisy_action_emb = noisy_action_projector(curr_noisy_actions)  # (batch, action_horizon, llm_dim)

        full_emb = jnp.concatenate([obs_token_emb, noisy_action_emb, diffusion_timestep_embeddings], axis=1)  # (batch, obs_seq_len+2*action_horizon, llm_dim)

        # mask
        full_input_mask = jnp.concatenate([input_mask, jnp.ones((batch_size, 2*action_horizon), dtype=input_mask.dtype)], axis=1)
        full_ar_mask = jnp.concatenate([ar_mask, jnp.zeros((batch_size, 2*action_horizon), dtype=ar_mask.dtype)], axis=1)
        attn_mask = make_attn_mask(full_input_mask, full_ar_mask)
        attn_mask = attn_mask[:, None, :, :]  # (batch, 1, seq_len, seq_len)

        # hidden_states
        hidden_states, _, _ = model.PaliGemma.llm(
            embedded_prefix=full_emb,
            mask=attn_mask,
            return_prelogits=True,
        )
        obs_seq_len = obs_token_emb.shape[1]

        actions_hidden_states = hidden_states[:, obs_seq_len:obs_seq_len+action_horizon, :]  # (batch, action_horizon, llm_dim)
        noise_pred = diffusion_action_head.predict_noise(actions_hidden_states)  # (batch, action_horizon, action_dim)

        prev_sample = diffusion_action_head.noise_scheduler.step(noise_pred, timestep, curr_noisy_actions)["prev_sample"]
        return prev_sample, None

    final_sample, _ = jax.lax.scan(diffusion_step, curr_noisy_actions, diffusion_action_head.noise_scheduler.timesteps)

    return final_sample


def compute_loss_with_oft_modes(
    model: _model.BaseModel, 
    rng: at.KeyArrayLike, 
    observation: _model.Observation, 
    actions: _model.Actions,
    config: _config.TrainConfig,
    oft_config: OftTrainingConfig,
    diffusion_action_head: Optional[DiffusionActionHead] = None,
    noisy_action_projector: Optional[NoisyActionProjector] = None,
    train: bool = True
) -> Tuple[jnp.ndarray, Dict[str, jnp.ndarray]]:
    """openvla-oft"""       
    
    chunked_loss = model.compute_loss(rng, observation, actions, train=train)
    base_loss = jnp.mean(chunked_loss)
    
    metrics = {"loss": base_loss}
    
    # calculate different losses based on training mode
    if oft_config.use_discrete_tokens:
        # discrete token prediction mode (default)
        metrics["discrete_loss"] = base_loss
        
    elif oft_config.use_l1_regression:
        l1_loss = base_loss  # TODO: calculate L1 loss
        metrics["l1_loss"] = l1_loss
        metrics["regression_loss"] = l1_loss
        
    elif oft_config.use_diffusion and diffusion_action_head is not None:
        # diffusion
        batch_size = actions.shape[0]
        action_horizon = actions.shape[1]
        action_dim = actions.shape[2]
        # sample noise
        noisy_dict = diffusion_action_head.sample_noisy_actions(actions, rng)
        noise = noisy_dict["noise"]  # (batch, action_horizon, action_dim)
        noisy_actions = noisy_dict["noisy_actions"]  # (batch, action_horizon, action_dim)
        diffusion_timestep_embeddings = noisy_dict["diffusion_timestep_embeddings"]  # (batch, llm_dim)
        timesteps = noisy_dict["timesteps"]
        # hidden_states
        if not isinstance(model, Pi0FAST):
            raise ValueError("diffusion loss only supports Pi0FAST main model!")
        if noisy_action_projector is None:
            raise ValueError("diffusion loss needs noisy_action_projector, should not be None")
        # noisy_action_projector
        noisy_action_emb = noisy_action_projector(noisy_actions)  # (batch, action_horizon, llm_dim)
        # diffusion_timestep_embeddings -> (batch, action_horizon, llm_dim)
        diffusion_timestep_embeddings = jnp.expand_dims(diffusion_timestep_embeddings, 1)  # (batch, 1, llm_dim)
        diffusion_timestep_embeddings = jnp.tile(diffusion_timestep_embeddings, (1, action_horizon, 1))  # (batch, action_horizon, llm_dim)
        obs_token_emb, input_mask, ar_mask = model.embed_inputs(observation)  # (batch, obs_seq_len, llm_dim)

        full_emb = jnp.concatenate([obs_token_emb, noisy_action_emb, diffusion_timestep_embeddings], axis=1)  # (batch, obs_seq_len+2*action_horizon, llm_dim)
        full_input_mask = jnp.concatenate([input_mask, jnp.ones((batch_size, 2*action_horizon), dtype=input_mask.dtype)], axis=1)
        full_ar_mask = jnp.concatenate([ar_mask, jnp.zeros((batch_size, 2*action_horizon), dtype=ar_mask.dtype)], axis=1)
        attn_mask = make_attn_mask(full_input_mask, full_ar_mask)
        attn_mask = attn_mask[:, None, :, :]  # (batch, 1, seq_len, seq_len)
        hidden_states, _, _ = model.PaliGemma.llm(
            embedded_prefix=full_emb,
            mask=attn_mask,
            return_prelogits=True,
        )
        obs_seq_len = obs_token_emb.shape[1]
        # actions_hidden_state
        actions_hidden_states = hidden_states[:, obs_seq_len:obs_seq_len+action_horizon, :]  # (batch, action_horizon, llm_dim)
        predicted_noise = diffusion_action_head.predict_noise(actions_hidden_states)  # (batch, action_horizon, action_dim)
        # loss
        diffusion_loss = jnp.mean((predicted_noise - noise) ** 2)
        metrics["diffusion_loss"] = diffusion_loss
        metrics["noise_prediction_loss"] = diffusion_loss
        base_loss = diffusion_loss
    
    # LoRA
    try:
        if hasattr(config.model, 'paligemma_variant') and 'lora' in str(config.model.paligemma_variant):
            metrics["lora_loss"] = base_loss
            metrics["finetune_mode"] = jnp.array(1.0)  # mark as finetune mode
    except:
        pass
    
    return base_loss, metrics


@at.typecheck
def train_step(
    config: _config.TrainConfig,
    oft_config: OftTrainingConfig,
    rng: at.KeyArrayLike,
    state: training_utils.TrainState,
    batch: tuple[_model.Observation, _model.Actions],
) -> tuple[training_utils.TrainState, dict[str, at.Array]]:
    model = nnx.merge(state.model_def, state.params)
    model.train()

    train_rng = jax.random.fold_in(rng, state.step)
    observation, actions = batch

    diffusion_action_head, noisy_action_projector = create_diffusion_components(config, oft_config, train_rng)

    # openvla-oft loss
    loss, metrics = compute_loss_with_oft_modes(
        model, train_rng, observation, actions, config, oft_config, 
        diffusion_action_head, noisy_action_projector, train=True
    )

    # Filter out frozen params.
    diff_state = nnx.DiffState(0, config.trainable_filter)
    grads = nnx.grad(lambda m, r, obs, acts: compute_loss_with_oft_modes(
        m, r, obs, acts, config, oft_config, diffusion_action_head, noisy_action_projector, train=True
    )[0])(model, train_rng, observation, actions)

    params = state.params
    #print(params)
    updates, new_opt_state = state.tx.update(grads, state.opt_state, params)
    new_params = optax.apply_updates(params, updates)

    # Update the model in place and return the new full state.
    new_state = dataclasses.replace(state, step=state.step + 1, params=new_params, opt_state=new_opt_state)
    if state.ema_decay is not None and state.ema_params is not None:
        ema_decay = state.ema_decay
        new_state = dataclasses.replace(
            new_state,
            ema_params=jax.tree.map(
                lambda old, new: ema_decay * old + (1 - ema_decay) * new, state.ema_params, new_params
            ),
        )

    # Filter out params that aren't kernels.
    kernel_params = nnx.state(
        model,
        nnx.All(
            nnx.Param,
            nnx.Not(nnx_utils.PathRegex(".*/(bias|scale|pos_embedding|input_embedding)")),
            lambda _, x: x.value.ndim > 1,
        ),
    )
    
    info = {
        **metrics,
        "grad_norm": optax.global_norm(grads),
        "param_norm": optax.global_norm(kernel_params),
    }

    # sample actions for visualization/debug
    if diffusion_action_head is not None and noisy_action_projector is not None:
        sampled_actions = run_diffusion_sampling(
            model, diffusion_action_head, noisy_action_projector, observation, actions, rng, oft_config
        )
        # only take the first batch element, avoid info too large
        info["sampled_actions"] = sampled_actions[:1]

    return new_state, info


def run_validation(
    config: _config.TrainConfig,
    oft_config: OftTrainingConfig,
    state: training_utils.TrainState,
    val_data_loader,
    mesh: jax.sharding.Mesh,
    step: int,
) -> Dict[str, float]:
    """validation"""
    if not oft_config.use_val_set:
        return {}
    
    model = nnx.merge(state.model_def, state.params)
    model.eval()
    
    val_metrics = []
    val_batches = 0
    
    for batch in val_data_loader:
        if val_batches >= 10:  # limit validation batches
            break
            
        observation, actions = batch
        
        # create diffusion components
        diffusion_action_head, noisy_action_projector = create_diffusion_components(config, oft_config, jax.random.key(0))
        
        loss, metrics = compute_loss_with_oft_modes(
            model, jax.random.key(0), observation, actions, config, oft_config,
            diffusion_action_head, noisy_action_projector, train=False
        )
        
        val_metrics.append(metrics)
        val_batches += 1
    
    # calculate average metrics
    avg_metrics = {}
    if val_metrics:
        for key in val_metrics[0].keys():
            avg_metrics[f"val_{key}"] = jnp.mean(jnp.array([m[key] for m in val_metrics]))
    
    return avg_metrics


def main(config: _config.TrainConfig):
    init_logging()
    logging.info(f"Running on: {platform.node()}")
    logging.info(f"Using openvla-oft enhanced training script")
    logging.info(f"Config: {config.name}")

    # openvla-oft config
    oft_config = OftTrainingConfig()

    if config.batch_size % jax.device_count() != 0:
        raise ValueError(
            f"Batch size {config.batch_size} must be divisible by the number of devices {jax.device_count()}."
        )

    jax.config.update("jax_compilation_cache_dir", str(epath.Path("~/.cache/jax").expanduser()))

    rng = jax.random.key(config.seed)
    train_rng, init_rng = jax.random.split(rng)

    mesh = sharding.make_mesh(config.fsdp_devices)
    data_sharding = jax.sharding.NamedSharding(mesh, jax.sharding.PartitionSpec(sharding.DATA_AXIS))
    replicated_sharding = jax.sharding.NamedSharding(mesh, jax.sharding.PartitionSpec())

    checkpoint_manager, resuming = _checkpoints.initialize_checkpoint_dir(
        str(config.checkpoint_dir),
        keep_period=config.keep_period,
        overwrite=config.overwrite,
        resume=config.resume,
    )
    init_wandb(config, oft_config, resuming=resuming, enabled=config.wandb_enabled)

    data_loader = _data_loader.create_data_loader(
        config,
        sharding=data_sharding,
        shuffle=True,
    )
    data_iter = iter(data_loader)
    batch = next(data_iter)
    logging.info(f"Initialized data loader:\n{training_utils.array_tree_to_info(batch)}")

    # Log images from first batch to sanity check.
    images_to_log = [
        wandb.Image(np.concatenate([np.array(img[i]) for img in batch[0].images.values()], axis=1))
        for i in range(min(5, len(next(iter(batch[0].images.values())))))
    ]
    wandb.log({"camera_views": images_to_log}, step=0)

    # initialize model, get all params (only for generating mask)
    model = config.model.create(init_rng)
    model = apply_lora_to_model(model, config)
    params = nnx.state(model)
    mask = lora_mask(params)
    # add gradient clipping, clip_norm=1.0
    tx = optax.chain(
        optax.clip_by_global_norm(1.0),
        optax.masked(
            _optimizer.create_optimizer(config.optimizer, config.lr_schedule, weight_decay_mask=None),
            mask
        )
    )

    train_state, train_state_sharding = init_train_state(
        config, oft_config, init_rng, mesh, tx=tx, resume=resuming
    )
    jax.block_until_ready(train_state)
    logging.info(f"Initialized train state:\n{training_utils.array_tree_to_info(train_state.params)}")

    if resuming:
        train_state = _checkpoints.restore_state(checkpoint_manager, train_state, data_loader)

    ptrain_step = jax.jit(
        functools.partial(train_step, config, oft_config),
        in_shardings=(replicated_sharding, train_state_sharding, data_sharding),
        out_shardings=(train_state_sharding, replicated_sharding),
        donate_argnums=(1,),
    )

    start_step = int(jax.device_get(train_state.step))
    pbar = tqdm.tqdm(
        range(start_step, config.num_train_steps),
        initial=start_step,
        total=config.num_train_steps,
        dynamic_ncols=True,
    )

    infos = []
    gradient_step = 0
    
    for step in pbar:
        with sharding.set_mesh(mesh):
            train_state, info = ptrain_step(train_rng, train_state, batch)
        infos.append(info)
        
        if (step + 1) % oft_config.grad_accumulation_steps == 0:
            gradient_step += 1
            
            if gradient_step % config.log_interval == 0:
                stacked_infos = common_utils.stack_forest(infos)
                reduced_info = jax.device_get(jax.tree.map(jnp.mean, stacked_infos))
                info_str = ", ".join(f"{k}={v:.4f}" for k, v in reduced_info.items())
                pbar.write(f"Step {step}: {info_str}")
                wandb.log(reduced_info, step=step)
                infos = []
            
            # validation
            if oft_config.use_val_set and gradient_step % oft_config.val_freq == 0:
                val_metrics = run_validation(config, oft_config, train_state, data_loader, mesh, step)
                if val_metrics:
                    wandb.log(val_metrics, step=step)
                    pbar.write(f"Validation at step {step}: {val_metrics}")
        
        batch = next(data_iter)

        if (step % config.save_interval == 0 and step > start_step) or step == config.num_train_steps - 1:
            _checkpoints.save_state(checkpoint_manager, train_state, data_loader, step)

    logging.info("Waiting for checkpoint manager to finish")
    checkpoint_manager.wait_until_finished()


if __name__ == "__main__":
    main(_config.cli())