{"dataset_kwargs": {"balance_weights": true, "batch_size": 64, "dataset_kwargs_list": [{"name": "bridge_dataset_pnp_no_drawer_machine_fold_NILS", "data_dir": "gs://nils_bucket", "image_obs_keys": {"primary": "image_0"}, "language_key": "language_instruction", "language_key_NILS": "language_instruction_NILS", "Gt_ann_dirs": [], "NILS_ann_dirs": ["put", "pick", "take", "pnp", "icra", "rss", "many_skills", "lift_bowl", "move_drying", "wipe", "right_pepper", "topple", "upright", "flip", "v1"], "filter_functions": [{"module": "octo.data.utils.data_utils", "name": "filter_by_task_and_language_key", "args": [], "kwargs": {"language_key_gt_template": "language_instruction", "language_key_NILS_template": "language_instruction_NILS_0", "gt_task_templates": [], "NILS_task_templates": ["put", "pick", "take", "pnp", "icra", "rss", "many_skills", "lift_bowl", "move_drying", "wipe", "right_pepper", "topple", "upright", "flip", "v1"], "negative_task_templates": ["drawer", "machine", "fold"]}}], "action_normalization_mask": [true, true, true, true, true, true, false], "action_proprio_normalization_type": "normal", "standardize_fn": {"module": "octo.data.oxe.oxe_standardization_transforms", "name": "bridge_dataset_transform", "args": [], "kwargs": {}}}, {"name": "fractal20220817_data_NILS", "data_dir": "gs://nils_bucket", "image_obs_keys": {"primary": "image"}, "language_key": "language_instruction", "language_key_NILS": "language_instruction_NILS", "filter_functions": [{"module": "octo.data.utils.data_utils", "name": "filter_by_language_key", "args": [], "kwargs": {"language_key": "language_instruction_NILS_0"}}], "action_normalization_mask": [true, true, true, true, true, true, false], "action_proprio_normalization_type": "normal", "standardize_fn": {"module": "octo.data.oxe.oxe_standardization_transforms", "name": "rt1_dataset_transform", "args": [], "kwargs": {}}}], "frame_transform_kwargs": {"image_augment_kwargs": {"primary": {"augment_order": ["random_resized_crop", "random_brightness", "random_contrast", "random_saturation", "random_hue"], "random_brightness": [0.1], "random_contrast": [0.9, 1.1], "random_hue": [0.05], "random_resized_crop": {"ratio": [0.9, 1.1], "scale": [0.8, 1.0]}, "random_saturation": [0.9, 1.1]}, "wrist": {"augment_order": ["random_brightness", "random_contrast", "random_saturation", "random_hue"], "random_brightness": [0.1], "random_contrast": [0.9, 1.1], "random_hue": [0.05], "random_saturation": [0.9, 1.1]}}, "image_dropout_prob": 0.0, "num_parallel_calls": 200, "resize_size": {"primary": [256, 256], "wrist": [128, 128]}}, "sample_weights": [2.0, 1.0], "shuffle_buffer_size": 50000, "traj_read_threads": 48, "traj_transform_kwargs": {"action_horizon": 4, "goal_relabeling_strategy": "uniform", "max_action_dim": 7, "subsample_length": 100, "task_augment_kwargs": {"keep_image_prob": 0.5}, "task_augment_strategy": "delete_task_conditioning", "window_size": 2}, "traj_transform_threads": 48}, "eval_datasets": null, "eval_interval": 5000, "log_interval": 100, "model": {"heads": {"action": {"args": [], "kwargs": {"action_dim": 7, "action_horizon": 4, "dropout_rate": 0.0, "n_diffusion_samples": 1, "readout_key": "readout_action", "use_map": false}, "module": "octo.model.components.action_heads", "name": "DiffusionActionHead"}}, "max_horizon": 10, "observation_tokenizers": {"primary": {"args": [], "kwargs": {"encoder": {"args": [], "kwargs": {}, "module": "octo.model.components.vit_encoders", "name": "SmallStem16"}, "obs_stack_keys": ["image_primary"], "task_stack_keys": ["image_primary"]}, "module": "octo.model.components.tokenizers", "name": "ImageTokenizer"}, "wrist": {"args": [], "kwargs": {"encoder": {"args": [], "kwargs": {}, "module": "octo.model.components.vit_encoders", "name": "SmallStem16"}, "obs_stack_keys": ["image_wrist"], "task_stack_keys": ["image_wrist"]}, "module": "octo.model.components.tokenizers", "name": "ImageTokenizer"}}, "readouts": {"action": 1}, "repeat_task_tokens": true, "task_tokenizers": {"language": {"args": [], "kwargs": {"encoder": "t5-base", "finetune_encoder": false}, "module": "octo.model.components.tokenizers", "name": "LanguageTokenizer"}}, "token_embedding_size": 384, "transformer_kwargs": {"add_position_embedding": false, "attention_dropout_rate": 0.0, "dropout_rate": 0.0, "mlp_dim": 1536, "num_attention_heads": 6, "num_layers": 12}, "use_correct_attention": true}, "num_steps": 300000.0, "optimizer": {"clip_gradient": 1.0, "frozen_keys": ["*hf_model*"], "grad_accumulation_steps": null, "learning_rate": {"init_value": 0.0, "name": "rsqrt", "peak_value": 0.0003, "timescale": 10000, "warmup_steps": 2000}, "weight_decay": 0.1}, "prefetch_num_batches": 0, "pretrained_loaders": [{"module": "octo.utils.train_utils", "name": "hf_weights_loader", "args": [], "kwargs": {"hf_model": "t5-base"}}], "resume_path": null, "save_dir": "gs://nils_bucket/checkpoints", "save_interval": 50000, "seed": 42, "start_step": null, "text_processor": {"args": [], "kwargs": {"encode_with_model": false, "tokenizer_kwargs": {"max_length": 24, "padding": "max_length", "return_tensors": "np", "truncation": true}, "tokenizer_name": "t5-base"}, "module": "octo.data.utils.text_processing", "name": "HFTokenizer"}, "val_kwargs": {"num_val_batches": 16, "val_shuffle_buffer_size": 1000}, "viz_interval": 20000, "viz_kwargs": {"eval_batch_size": 128, "samples_per_state": 8, "trajs_for_metrics": 100, "trajs_for_viz": 8}, "wandb": {"entity": null, "group": null, "project": "octo"}, "wandb_resume_id": null, "window_size": 2}