Yiyuan
/

MiCo-ViT-g-14-omnimodal-300k-b64K

Inference Endpoints

Model card Files Files and versions Community

MiCo-ViT-g-14-omnimodal-300k-b64K / config.json

Yiyuan's picture

Upload 2 files

817e424 verified 5 months ago

2.3 kB

	{
	"run_cfg": {
	"checkpoint": "",
	"output_dir": "./output/hdli/pretrain_mmctx",
	"gradient_accumulation_steps": 1,
	"clip_lr": 5e-07,
	"optim": "adamw",
	"learning_rate": 5e-05,
	"betas": [
	0.9,
	0.98
	],
	"weight_decay": 0.01,
	"grad_norm": 2.0,
	"warmup_ratio": 0.1,
	"resume": false,
	"seed": 50,
	"fp16": true,
	"bf16": false,
	"zero_shot": false,
	"scheduler": "warmup_linear",
	"new_lr": 0,
	"new_params_name": [],
	"valid_freq": 10,
	"dataset_mix_type": "random",
	"remove_before_ckpt": true,
	"first_eval": true,
	"pretrain_dir": "./output/vast/pretrain_vast",
	"num_train_steps": 0,
	"save_best": false,
	"pin_mem": true,
	"vision_resolution": 224,
	"pretrain_concat_num": 1,
	"use_ddp": false,
	"mode": "training",
	"log_steps": 100,
	"default": "./config/mmctx/default_run_cfg.json"
	},
	"model_cfg": {
	"model_type": "mmctx",
	"itm_ratio": 0.1,
	"frozen_vision": false,
	"frozen_audio": false,
	"checkpointing": true,
	"pool_video": false,
	"max_caption_len": 40,
	"max_omni_caption_len": 70,
	"max_subtitle_len": 70,
	"contra_dim": 512,
	"inherit_keys": [
	"vision_encoder_type",
	"audio_encoder_type"
	],
	"frame_embedding_type": "adaptive",
	"vision_resolution": 224,
	"vision_encoder_type": "evaclip01_giant",
	"audio_encoder_type": "beats",
	"audio_melbins": 224,
	"audio_target_length": 224,
	"beam_size": 3,
	"captioner_mode": false,
	"generate_nums": 1,
	"ret_bidirection_evaluation": false,
	"itm_rerank_num": 50,
	"evaluation_type": "evaluation_mm",
	"default": "./config/mmctx/default_model_cfg.json",
	"max_vision_sample_num": 2,
	"max_audio_sample_num": 2,
	"max_depth_sample_num": 1
	},
	"data_cfg": {
	"train": [
	],
	"val": [],
	"concatenated_nums": 1
	},
	"local_rank": 0
	}