MgGladys commited on Feb 9

Commit

3902497

verified ·

1 Parent(s): 1f923cf

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_Classifier_Layer12_ImgText_V5_i_ret/checkpoint-200/merges.txt +0 -0
experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_Classifier_Layer12_ImgText_V5_i_ret/checkpoint-200/vocab.json +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-200/merges.txt +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-200/vocab.json +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-300/vocab.json +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/added_tokens.json +24 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/chat_template.jinja +7 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/added_tokens.json +24 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/chat_template.jinja +7 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/preprocessor_config.json +29 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/special_tokens_map.json +31 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/tokenizer_config.json +208 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/trainer_state.json +734 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/added_tokens.json +24 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/chat_template.jinja +7 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/preprocessor_config.json +29 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/special_tokens_map.json +31 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/tokenizer_config.json +208 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/merges.txt +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/preprocessor_config.json +29 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/tokenizer_config.json +208 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/train_cls.log +0 -0
experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/vocab.json +0 -0
experiments/public/eval/eval_1gpu.sh +81 -0
experiments/public/eval/eval_1gpu_aop.sh +79 -0
experiments/public/eval/eval_1gpu_cut_layer.sh +76 -0
experiments/public/eval/eval_1gpu_cut_layer_AOP_text.sh +103 -0
experiments/public/eval/eval_1gpu_cut_layer_unified_new.sh +131 -0
experiments/public/eval/eval_1gpu_early_exit_classifier.sh +70 -0
experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_attn_pooling.sh +102 -0
experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_pooling.sh +212 -0
experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_pooling_new.sh +102 -0
experiments/public/eval/eval_1gpu_early_exit_classifier_V5.sh +88 -0
experiments/public/eval/eval_1gpu_early_exit_classifier_V5_new.sh +99 -0
experiments/public/eval/eval_1gpu_multilayer_AOP_attn_pooling.sh +108 -0
experiments/public/eval/eval_1gpu_multilayer_AOP_new.sh +106 -0
experiments/public/eval/eval_1gpu_output_attn.sh +83 -0
experiments/public/eval/eval_vlm2vecv1_8gpu.sh +71 -0
experiments/public/eval/image_retrival.yaml +101 -0
experiments/public/eval/mieb_any2any_retrieval_lite.yaml +55 -0
experiments/public/eval/mieb_any2any_retrieval_lite2.yaml +55 -0
experiments/public/eval/run_batch_benchmark.sh +112 -0
experiments/public/eval/scan_threshold.sh +176 -0
experiments/public/eval/visdoc_retrival.yaml +141 -0
experiments/public/train/train_alltasks.yaml +395 -0
experiments/public/train/train_image.yaml +161 -0
experiments/public/train/train_image1.yaml +160 -0
experiments/public/train/train_v2-gp.sh +103 -0
experiments/public/train/train_v2-qwen2vl-2B_imageonly_add_CRD.sh +109 -0
experiments/public/train/train_v2-qwen2vl-2B_imageonly_layer_prune.sh +99 -0

experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_Classifier_Layer12_ImgText_V5_i_ret/checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_Classifier_Layer12_ImgText_V5_i_ret/checkpoint-200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz1024/checkpoint-300/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,7 @@

+{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
+You are a helpful assistant.<|im_end|>
+{% endif %}<|im_start|>{{ message['role'] }}
+{% if message['content'] is string %}{{ message['content'] }}<|im_end|>
+{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
+{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
+{% endif %}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,7 @@

+{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
+You are a helpful assistant.<|im_end|>
+{% endif %}<|im_start|>{{ message['role'] }}
+{% if message['content'] is string %}{{ message['content'] }}<|im_end|>
+{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
+{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
+{% endif %}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2_5_VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_pixels": 1003520,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "max_pixels": 1003520,
+    "min_pixels": 3136
+  },
+  "temporal_patch_size": 2
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,734 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.013017443374121323,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00013017443374121324,
+      "grad_norm": 9.027134895324707,
+      "learning_rate": 0.0,
+      "loss": 1.7121,
+      "step": 1
+    },
+    {
+      "epoch": 0.0002603488674824265,
+      "grad_norm": 6.82881498336792,
+      "learning_rate": 5e-06,
+      "loss": 1.3212,
+      "step": 2
+    },
+    {
+      "epoch": 0.00039052330122363966,
+      "grad_norm": 9.780951499938965,
+      "learning_rate": 1e-05,
+      "loss": 1.3029,
+      "step": 3
+    },
+    {
+      "epoch": 0.000520697734964853,
+      "grad_norm": 6.956725597381592,
+      "learning_rate": 1.5e-05,
+      "loss": 1.3596,
+      "step": 4
+    },
+    {
+      "epoch": 0.0006508721687060661,
+      "grad_norm": 7.1865010261535645,
+      "learning_rate": 2e-05,
+      "loss": 1.0132,
+      "step": 5
+    },
+    {
+      "epoch": 0.0007810466024472793,
+      "grad_norm": 6.9718475341796875,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0072,
+      "step": 6
+    },
+    {
+      "epoch": 0.0009112210361884926,
+      "grad_norm": 7.56270170211792,
+      "learning_rate": 3e-05,
+      "loss": 0.9878,
+      "step": 7
+    },
+    {
+      "epoch": 0.001041395469929706,
+      "grad_norm": 9.146328926086426,
+      "learning_rate": 3.5000000000000004e-05,
+      "loss": 1.0033,
+      "step": 8
+    },
+    {
+      "epoch": 0.001171569903670919,
+      "grad_norm": 7.27562952041626,
+      "learning_rate": 4e-05,
+      "loss": 1.2293,
+      "step": 9
+    },
+    {
+      "epoch": 0.0013017443374121322,
+      "grad_norm": 7.683845520019531,
+      "learning_rate": 4.4999999999999996e-05,
+      "loss": 1.0291,
+      "step": 10
+    },
+    {
+      "epoch": 0.0014319187711533455,
+      "grad_norm": 6.271151542663574,
+      "learning_rate": 5e-05,
+      "loss": 0.9344,
+      "step": 11
+    },
+    {
+      "epoch": 0.0015620932048945586,
+      "grad_norm": 7.351341247558594,
+      "learning_rate": 5.5e-05,
+      "loss": 1.1735,
+      "step": 12
+    },
+    {
+      "epoch": 0.001692267638635772,
+      "grad_norm": 9.452715873718262,
+      "learning_rate": 6e-05,
+      "loss": 1.6768,
+      "step": 13
+    },
+    {
+      "epoch": 0.0018224420723769851,
+      "grad_norm": 4.848631858825684,
+      "learning_rate": 6.500000000000001e-05,
+      "loss": 1.1856,
+      "step": 14
+    },
+    {
+      "epoch": 0.0019526165061181985,
+      "grad_norm": 4.508008003234863,
+      "learning_rate": 7.000000000000001e-05,
+      "loss": 1.1299,
+      "step": 15
+    },
+    {
+      "epoch": 0.002082790939859412,
+      "grad_norm": 7.280736446380615,
+      "learning_rate": 7.5e-05,
+      "loss": 1.1765,
+      "step": 16
+    },
+    {
+      "epoch": 0.0022129653736006247,
+      "grad_norm": 5.3748979568481445,
+      "learning_rate": 8e-05,
+      "loss": 0.7167,
+      "step": 17
+    },
+    {
+      "epoch": 0.002343139807341838,
+      "grad_norm": 4.538390636444092,
+      "learning_rate": 8.5e-05,
+      "loss": 0.8025,
+      "step": 18
+    },
+    {
+      "epoch": 0.0024733142410830514,
+      "grad_norm": 5.350919723510742,
+      "learning_rate": 8.999999999999999e-05,
+      "loss": 1.0602,
+      "step": 19
+    },
+    {
+      "epoch": 0.0026034886748242643,
+      "grad_norm": 7.6904802322387695,
+      "learning_rate": 9.5e-05,
+      "loss": 0.9535,
+      "step": 20
+    },
+    {
+      "epoch": 0.0027336631085654777,
+      "grad_norm": 3.215092658996582,
+      "learning_rate": 0.0001,
+      "loss": 0.6306,
+      "step": 21
+    },
+    {
+      "epoch": 0.002863837542306691,
+      "grad_norm": 3.4990460872650146,
+      "learning_rate": 0.000105,
+      "loss": 0.8273,
+      "step": 22
+    },
+    {
+      "epoch": 0.0029940119760479044,
+      "grad_norm": 6.226487159729004,
+      "learning_rate": 0.00011,
+      "loss": 0.7278,
+      "step": 23
+    },
+    {
+      "epoch": 0.0031241864097891173,
+      "grad_norm": 8.820632934570312,
+      "learning_rate": 0.000115,
+      "loss": 1.1691,
+      "step": 24
+    },
+    {
+      "epoch": 0.0032543608435303306,
+      "grad_norm": 4.559078216552734,
+      "learning_rate": 0.00012,
+      "loss": 0.7181,
+      "step": 25
+    },
+    {
+      "epoch": 0.003384535277271544,
+      "grad_norm": 4.220932960510254,
+      "learning_rate": 0.000125,
+      "loss": 1.1495,
+      "step": 26
+    },
+    {
+      "epoch": 0.003514709711012757,
+      "grad_norm": 3.457106590270996,
+      "learning_rate": 0.00013000000000000002,
+      "loss": 0.6497,
+      "step": 27
+    },
+    {
+      "epoch": 0.0036448841447539702,
+      "grad_norm": 4.938692092895508,
+      "learning_rate": 0.000135,
+      "loss": 0.8021,
+      "step": 28
+    },
+    {
+      "epoch": 0.0037750585784951836,
+      "grad_norm": 4.849185943603516,
+      "learning_rate": 0.00014000000000000001,
+      "loss": 0.4922,
+      "step": 29
+    },
+    {
+      "epoch": 0.003905233012236397,
+      "grad_norm": 2.6389944553375244,
+      "learning_rate": 0.000145,
+      "loss": 0.7901,
+      "step": 30
+    },
+    {
+      "epoch": 0.00403540744597761,
+      "grad_norm": 3.179384231567383,
+      "learning_rate": 0.00015,
+      "loss": 0.4517,
+      "step": 31
+    },
+    {
+      "epoch": 0.004165581879718824,
+      "grad_norm": 3.68798828125,
+      "learning_rate": 0.000155,
+      "loss": 0.7674,
+      "step": 32
+    },
+    {
+      "epoch": 0.004295756313460036,
+      "grad_norm": 3.3014638423919678,
+      "learning_rate": 0.00016,
+      "loss": 0.6232,
+      "step": 33
+    },
+    {
+      "epoch": 0.0044259307472012495,
+      "grad_norm": 5.8319993019104,
+      "learning_rate": 0.000165,
+      "loss": 0.7051,
+      "step": 34
+    },
+    {
+      "epoch": 0.004556105180942463,
+      "grad_norm": 5.789146423339844,
+      "learning_rate": 0.00017,
+      "loss": 0.9646,
+      "step": 35
+    },
+    {
+      "epoch": 0.004686279614683676,
+      "grad_norm": 3.3160910606384277,
+      "learning_rate": 0.000175,
+      "loss": 0.7404,
+      "step": 36
+    },
+    {
+      "epoch": 0.0048164540484248895,
+      "grad_norm": 2.0886712074279785,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.4553,
+      "step": 37
+    },
+    {
+      "epoch": 0.004946628482166103,
+      "grad_norm": 3.526718854904175,
+      "learning_rate": 0.000185,
+      "loss": 0.6724,
+      "step": 38
+    },
+    {
+      "epoch": 0.005076802915907316,
+      "grad_norm": 1.9652310609817505,
+      "learning_rate": 0.00019,
+      "loss": 0.4729,
+      "step": 39
+    },
+    {
+      "epoch": 0.005206977349648529,
+      "grad_norm": 3.9210290908813477,
+      "learning_rate": 0.00019500000000000002,
+      "loss": 0.9257,
+      "step": 40
+    },
+    {
+      "epoch": 0.005337151783389742,
+      "grad_norm": 2.2785885334014893,
+      "learning_rate": 0.0002,
+      "loss": 0.3922,
+      "step": 41
+    },
+    {
+      "epoch": 0.005467326217130955,
+      "grad_norm": 5.556844711303711,
+      "learning_rate": 0.000205,
+      "loss": 0.8272,
+      "step": 42
+    },
+    {
+      "epoch": 0.005597500650872169,
+      "grad_norm": 1.7946547269821167,
+      "learning_rate": 0.00021,
+      "loss": 0.2776,
+      "step": 43
+    },
+    {
+      "epoch": 0.005727675084613382,
+      "grad_norm": 1.6659146547317505,
+      "learning_rate": 0.000215,
+      "loss": 0.2818,
+      "step": 44
+    },
+    {
+      "epoch": 0.005857849518354595,
+      "grad_norm": 2.9105308055877686,
+      "learning_rate": 0.00022,
+      "loss": 0.733,
+      "step": 45
+    },
+    {
+      "epoch": 0.005988023952095809,
+      "grad_norm": 1.707923173904419,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.2418,
+      "step": 46
+    },
+    {
+      "epoch": 0.006118198385837021,
+      "grad_norm": 1.9957884550094604,
+      "learning_rate": 0.00023,
+      "loss": 0.6494,
+      "step": 47
+    },
+    {
+      "epoch": 0.006248372819578235,
+      "grad_norm": 2.3562097549438477,
+      "learning_rate": 0.000235,
+      "loss": 0.4304,
+      "step": 48
+    },
+    {
+      "epoch": 0.006378547253319448,
+      "grad_norm": 2.6113295555114746,
+      "learning_rate": 0.00024,
+      "loss": 0.6548,
+      "step": 49
+    },
+    {
+      "epoch": 0.006508721687060661,
+      "grad_norm": 2.3105404376983643,
+      "learning_rate": 0.000245,
+      "loss": 0.5747,
+      "step": 50
+    },
+    {
+      "epoch": 0.006638896120801875,
+      "grad_norm": 2.4724414348602295,
+      "learning_rate": 0.00025,
+      "loss": 0.3501,
+      "step": 51
+    },
+    {
+      "epoch": 0.006769070554543088,
+      "grad_norm": 2.129112482070923,
+      "learning_rate": 0.000255,
+      "loss": 0.3983,
+      "step": 52
+    },
+    {
+      "epoch": 0.006899244988284301,
+      "grad_norm": 1.734704852104187,
+      "learning_rate": 0.00026000000000000003,
+      "loss": 0.4274,
+      "step": 53
+    },
+    {
+      "epoch": 0.007029419422025514,
+      "grad_norm": 1.7710378170013428,
+      "learning_rate": 0.00026500000000000004,
+      "loss": 0.2733,
+      "step": 54
+    },
+    {
+      "epoch": 0.007159593855766727,
+      "grad_norm": 3.876213788986206,
+      "learning_rate": 0.00027,
+      "loss": 0.2934,
+      "step": 55
+    },
+    {
+      "epoch": 0.0072897682895079405,
+      "grad_norm": 1.6544724702835083,
+      "learning_rate": 0.000275,
+      "loss": 0.42,
+      "step": 56
+    },
+    {
+      "epoch": 0.007419942723249154,
+      "grad_norm": 4.511378288269043,
+      "learning_rate": 0.00028000000000000003,
+      "loss": 0.7193,
+      "step": 57
+    },
+    {
+      "epoch": 0.007550117156990367,
+      "grad_norm": 1.969791293144226,
+      "learning_rate": 0.000285,
+      "loss": 0.2931,
+      "step": 58
+    },
+    {
+      "epoch": 0.0076802915907315805,
+      "grad_norm": 1.4399250745773315,
+      "learning_rate": 0.00029,
+      "loss": 0.2678,
+      "step": 59
+    },
+    {
+      "epoch": 0.007810466024472794,
+      "grad_norm": 2.075308084487915,
+      "learning_rate": 0.000295,
+      "loss": 0.5184,
+      "step": 60
+    },
+    {
+      "epoch": 0.007940640458214007,
+      "grad_norm": 2.092390775680542,
+      "learning_rate": 0.0003,
+      "loss": 0.501,
+      "step": 61
+    },
+    {
+      "epoch": 0.00807081489195522,
+      "grad_norm": 1.3803796768188477,
+      "learning_rate": 0.000305,
+      "loss": 0.0933,
+      "step": 62
+    },
+    {
+      "epoch": 0.008200989325696434,
+      "grad_norm": 2.6716833114624023,
+      "learning_rate": 0.00031,
+      "loss": 0.4907,
+      "step": 63
+    },
+    {
+      "epoch": 0.008331163759437647,
+      "grad_norm": 2.602332353591919,
+      "learning_rate": 0.000315,
+      "loss": 0.5355,
+      "step": 64
+    },
+    {
+      "epoch": 0.008461338193178859,
+      "grad_norm": 1.9427075386047363,
+      "learning_rate": 0.00032,
+      "loss": 0.2417,
+      "step": 65
+    },
+    {
+      "epoch": 0.008591512626920072,
+      "grad_norm": 2.076782703399658,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.2974,
+      "step": 66
+    },
+    {
+      "epoch": 0.008721687060661286,
+      "grad_norm": 1.6976258754730225,
+      "learning_rate": 0.00033,
+      "loss": 0.2383,
+      "step": 67
+    },
+    {
+      "epoch": 0.008851861494402499,
+      "grad_norm": 1.6441351175308228,
+      "learning_rate": 0.000335,
+      "loss": 0.2017,
+      "step": 68
+    },
+    {
+      "epoch": 0.008982035928143712,
+      "grad_norm": 2.251415252685547,
+      "learning_rate": 0.00034,
+      "loss": 0.3529,
+      "step": 69
+    },
+    {
+      "epoch": 0.009112210361884926,
+      "grad_norm": 1.3723615407943726,
+      "learning_rate": 0.000345,
+      "loss": 0.2136,
+      "step": 70
+    },
+    {
+      "epoch": 0.009242384795626139,
+      "grad_norm": 2.3022258281707764,
+      "learning_rate": 0.00035,
+      "loss": 0.3552,
+      "step": 71
+    },
+    {
+      "epoch": 0.009372559229367352,
+      "grad_norm": 1.7158514261245728,
+      "learning_rate": 0.000355,
+      "loss": 0.2876,
+      "step": 72
+    },
+    {
+      "epoch": 0.009502733663108566,
+      "grad_norm": 2.0729708671569824,
+      "learning_rate": 0.00035999999999999997,
+      "loss": 0.3345,
+      "step": 73
+    },
+    {
+      "epoch": 0.009632908096849779,
+      "grad_norm": 0.8926207423210144,
+      "learning_rate": 0.000365,
+      "loss": 0.145,
+      "step": 74
+    },
+    {
+      "epoch": 0.009763082530590992,
+      "grad_norm": 1.281984806060791,
+      "learning_rate": 0.00037,
+      "loss": 0.2553,
+      "step": 75
+    },
+    {
+      "epoch": 0.009893256964332206,
+      "grad_norm": 2.1244750022888184,
+      "learning_rate": 0.000375,
+      "loss": 0.4454,
+      "step": 76
+    },
+    {
+      "epoch": 0.010023431398073419,
+      "grad_norm": 2.00681209564209,
+      "learning_rate": 0.00038,
+      "loss": 0.2888,
+      "step": 77
+    },
+    {
+      "epoch": 0.010153605831814632,
+      "grad_norm": 2.414694309234619,
+      "learning_rate": 0.00038500000000000003,
+      "loss": 0.3445,
+      "step": 78
+    },
+    {
+      "epoch": 0.010283780265555844,
+      "grad_norm": 1.4376050233840942,
+      "learning_rate": 0.00039000000000000005,
+      "loss": 0.3805,
+      "step": 79
+    },
+    {
+      "epoch": 0.010413954699297057,
+      "grad_norm": 1.5109490156173706,
+      "learning_rate": 0.000395,
+      "loss": 0.298,
+      "step": 80
+    },
+    {
+      "epoch": 0.01054412913303827,
+      "grad_norm": 1.4980159997940063,
+      "learning_rate": 0.0004,
+      "loss": 0.3296,
+      "step": 81
+    },
+    {
+      "epoch": 0.010674303566779484,
+      "grad_norm": 0.8917379379272461,
+      "learning_rate": 0.00040500000000000003,
+      "loss": 0.2573,
+      "step": 82
+    },
+    {
+      "epoch": 0.010804478000520697,
+      "grad_norm": 1.4543973207473755,
+      "learning_rate": 0.00041,
+      "loss": 0.3317,
+      "step": 83
+    },
+    {
+      "epoch": 0.01093465243426191,
+      "grad_norm": 1.2531291246414185,
+      "learning_rate": 0.000415,
+      "loss": 0.3687,
+      "step": 84
+    },
+    {
+      "epoch": 0.011064826868003124,
+      "grad_norm": 1.4232031106948853,
+      "learning_rate": 0.00042,
+      "loss": 0.1944,
+      "step": 85
+    },
+    {
+      "epoch": 0.011195001301744337,
+      "grad_norm": 1.066874384880066,
+      "learning_rate": 0.000425,
+      "loss": 0.2827,
+      "step": 86
+    },
+    {
+      "epoch": 0.01132517573548555,
+      "grad_norm": 1.0397121906280518,
+      "learning_rate": 0.00043,
+      "loss": 0.2561,
+      "step": 87
+    },
+    {
+      "epoch": 0.011455350169226764,
+      "grad_norm": 1.2276612520217896,
+      "learning_rate": 0.000435,
+      "loss": 0.0961,
+      "step": 88
+    },
+    {
+      "epoch": 0.011585524602967977,
+      "grad_norm": 1.4861217737197876,
+      "learning_rate": 0.00044,
+      "loss": 0.2329,
+      "step": 89
+    },
+    {
+      "epoch": 0.01171569903670919,
+      "grad_norm": 1.859115481376648,
+      "learning_rate": 0.00044500000000000003,
+      "loss": 0.2767,
+      "step": 90
+    },
+    {
+      "epoch": 0.011845873470450404,
+      "grad_norm": 1.5194251537322998,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.2665,
+      "step": 91
+    },
+    {
+      "epoch": 0.011976047904191617,
+      "grad_norm": 1.2869577407836914,
+      "learning_rate": 0.000455,
+      "loss": 0.128,
+      "step": 92
+    },
+    {
+      "epoch": 0.01210622233793283,
+      "grad_norm": 1.3539648056030273,
+      "learning_rate": 0.00046,
+      "loss": 0.2405,
+      "step": 93
+    },
+    {
+      "epoch": 0.012236396771674042,
+      "grad_norm": 1.1017889976501465,
+      "learning_rate": 0.000465,
+      "loss": 0.2318,
+      "step": 94
+    },
+    {
+      "epoch": 0.012366571205415256,
+      "grad_norm": 1.0330371856689453,
+      "learning_rate": 0.00047,
+      "loss": 0.2629,
+      "step": 95
+    },
+    {
+      "epoch": 0.01249674563915647,
+      "grad_norm": 1.0031756162643433,
+      "learning_rate": 0.000475,
+      "loss": 0.152,
+      "step": 96
+    },
+    {
+      "epoch": 0.012626920072897682,
+      "grad_norm": 0.9949682950973511,
+      "learning_rate": 0.00048,
+      "loss": 0.2203,
+      "step": 97
+    },
+    {
+      "epoch": 0.012757094506638896,
+      "grad_norm": 1.5362247228622437,
+      "learning_rate": 0.00048499999999999997,
+      "loss": 0.2322,
+      "step": 98
+    },
+    {
+      "epoch": 0.01288726894038011,
+      "grad_norm": 1.273103952407837,
+      "learning_rate": 0.00049,
+      "loss": 0.2898,
+      "step": 99
+    },
+    {
+      "epoch": 0.013017443374121323,
+      "grad_norm": 0.6677097678184509,
+      "learning_rate": 0.000495,
+      "loss": 0.1565,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,7 @@

+{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system
+You are a helpful assistant.<|im_end|>
+{% endif %}<|im_start|>{{ message['role'] }}
+{% if message['content'] is string %}{{ message['content'] }}<|im_end|>
+{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>
+{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant
+{% endif %}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2_5_VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_pixels": 1003520,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "max_pixels": 1003520,
+    "min_pixels": 3136
+  },
+  "temporal_patch_size": 2
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2_5_VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_pixels": 1003520,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "patch_size": 14,
+  "processor_class": "Qwen2_5_VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "max_pixels": 1003520,
+    "min_pixels": 3136
+  },
+  "temporal_patch_size": 2
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,208 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "Qwen2_5_VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/train_cls.log ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

experiments/public/eval/eval_1gpu.sh ADDED Viewed

	@@ -0,0 +1,81 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=1
+# MODALITIES=("image_retrival" "video_retrival")
+# MODALITIES=("image_retrival")
+MODALITIES=("mieb_any2any_retrieval_lite")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2vl_2B.add_mlp_try1/checkpoint-500" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_single_node_image_ret_10_29_h100/checkpoint-5000_DART_2_0.75_0_0" #_qry_cand_diff_ratio
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/try_add_mlp_try/stage1" #_qry_cand_diff_ratio
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_single_node_image_ret_10_29_h100/checkpoint-5000;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multi_layer_12_-1_0.1_0.9/checkpoint-5000;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Qwen/Qwen2.5-VL-3B-Instruct;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-Qwen2.5VL-3B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret;lamra;$OUTPUT_BASEDIR/LamRA-Ret" )lamra_qwen25
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+# MODEL_SPECS+=( "vidore/colpali-v1.3;colpali;$OUTPUT_BASEDIR/colpali-v1.3" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_aop.sh ADDED Viewed

	@@ -0,0 +1,79 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=1
+# MODALITIES=("image_retrival" "video_retrival")
+MODALITIES=("image_retrival")
+# MODALITIES=("visdoc_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec_2_5_analysis_aop" #_qry_cand_diff_ratio
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multi_layer_12_-1_0.1_0.9/checkpoint-5000;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_7B_single_node_alltask_online_doc_data_12_11_h100;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-Qwen2.5VL-7B" ) # Qwen/Qwen2.5-VL-3B-Instruct
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret;lamra;$OUTPUT_BASEDIR/LamRA-Ret" )lamra_qwen25
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+# MODEL_SPECS+=( "vidore/colpali-v1.3;colpali;$OUTPUT_BASEDIR/colpali-v1.3" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_aop.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_cut_layer.sh ADDED Viewed

	@@ -0,0 +1,76 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=4
+MODALITIES=("image_retrival")
+# MODALITIES=("image_retrival" "video_retrival" "visdoc_retrival")
+# MODALITIES=("video_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec/cut_layer" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/vlmvector_qwen25vl_train_multi_layer_distill_AOP_pooling_layer8_ablation_1230/result" #_qry_cand_diff_ratio
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+MODEL_SPECS+=( "/home/v-menggao/code/vlmvector_qwen25vl_train_multi_layer_distill_AOP_pooling_layer8_ablation_1230/checkpoint-900;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B_single_node_image_ret_10_30_h100/checkpoint-1200;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/vlm2vec_train_2.5_3b_multilayer_distill_add_weight_image_ret_11_18_a100_2/checkpoint-1000;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="LM_LAYERS='4,8,12,16,20,last' CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_cut_layer.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_cut_layer_AOP_text.sh ADDED Viewed

	@@ -0,0 +1,103 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=64
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec_AOP/t_0.5_8_i_0.5_16_both_l12_bsz64" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_single_node_image_ret_10_29_h100/checkpoint-5000/t_0.5_both_l10_bsz64_new" #_qry_cand_diff_ratio
+# export AOP_ENABLED=1
+# export AOP_APPLY=qry
+# export AOP_LAYER=8
+# export AOP_MODE=delta
+# export AOP_DELTA=0.12
+# export AOP_KHAT=1.6
+# export AOP_MIN_KEEP=64
+# export AOP_USE_BIAS=1
+export AOP_ENABLED=1
+export AOP_APPLY=both
+export AOP_LAYER=10
+export AOP_MODE=ratio
+# export AOP_KEEP_RATIO=0.1
+export AOP_MIN_KEEP=0
+# export AOP_DEBUG=1
+export AOP_SELECTION=random # 关键 aop | attention | random
+export AOP_PRUNE_VISION=0
+export AOP_PRUNE_TEXT=1
+# 比例模式：视觉保留 10%，文本保留 80%
+export AOP_KEEP_RATIO_VISION=0.5
+export AOP_KEEP_RATIO_TEXT=0.5
+# 保底
+export AOP_MIN_KEEP_VISION=8
+export AOP_MIN_KEEP_TEXT=8
+# 文本保护
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_RANDOM_SEED=42
+export AOP_DEBUG=1
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_single_node_image_ret_10_29_h100/checkpoint-5000;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="LM_LAYERS='last' CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_cut_layer_AOP_add_text_cut.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_cut_layer_unified_new.sh ADDED Viewed

	@@ -0,0 +1,131 @@

+#!/bin/bash
+set -e
+echo "==> Environment"
+echo "conda: $(which conda)"
+echo "python: $(which python)"
+python --version
+echo ""
+# 确保在 VLM2Vec 目录下
+# 注意：cd VLM2Vec/ 这行我移除了，因为您的集群调用显示是在 clone Code/ 之后 cd Code/
+# 如果 VLM2Vec 在 Code/ 目录下，请取消下面一行的注释
+# cd VLM2Vec/ || exit 1
+echo "Current directory: $(pwd)"
+# ==============================================================================
+# Config (Read from Environment Variables or use Defaults)
+# ==============================================================================
+echo "==> Loading Configuration..."
+# --- 基础配置 ---
+CUDA_VISIBLE_DEVICES="${EVAL_CUDA_DEVICES:-"0,1,2,3,4,5,6,7"}"
+BATCH_SIZE="${EVAL_BATCH_SIZE:-64}"
+# --- 模态配置 (从空格分隔的字符串 E VAL_MODALITIES 读取) ---
+MODALITIES_STR="${EVAL_MODALITIES:-"image_retrival video_retrival visdoc_retrival"}"
+read -r -a MODALITIES <<< "$MODALITIES_STR"
+# --- 路径配置 ---
+DATA_BASEDIR="${EVAL_DATA_BASEDIR:-"~/data/vlm2vec_eval/MMEB-V2"}"
+OUTPUT_BASEDIR="${EVAL_OUTPUT_BASEDIR:-"~/exps/vlm2vec_unified_eval"}"
+# --- 模型清单 ---
+# (重要) 默认模型规格现在在 OUTPUT_BASEDIR 被定义 *之后* 才设置, 以确保路径正确
+DEFAULT_MODEL_SPEC="VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B"
+MODEL_SPEC_TO_ADD="${EVAL_MODEL_SPEC:-"$DEFAULT_MODEL_SPEC"}"
+declare -a MODEL_SPECS
+MODEL_SPECS+=("$MODEL_SPEC_TO_ADD")
+# ==============================================================================
+# Cut-layer 配置 (Exported for Python)
+# ==============================================================================
+export LM_LAYERS="${EVAL_LM_LAYERS:-'16,20,24,last'}"
+# ==============================================================================
+# VisionZip 配置 (Exported for Python)
+# ==============================================================================
+export ZIP_ENABLED=${EVAL_ZIP_ENABLED:-0}
+export ZIP_APPLY="${EVAL_ZIP_APPLY:-"both"}"
+export ZIP_METHOD="${EVAL_ZIP_METHOD:-"visionzip"}"
+export ZIP_KEEP_DOM=${EVAL_ZIP_KEEP_DOM:-0.90}
+export ZIP_KEEP_CTX=${EVAL_ZIP_KEEP_CTX:-0.10}
+# ==============================================================================
+# AOP 配置 (Exported for Python)
+# ==============================================================================
+export AOP_ENABLED=${EVAL_AOP_ENABLED:-0}
+export AOP_APPLY="${EVAL_AOP_APPLY:-"both"}"
+export AOP_LAYER=${EVAL_AOP_LAYER:-20}
+export AOP_MODE="${EVAL_AOP_MODE:-"ratio"}"
+export AOP_KEEP_RATIO=${EVAL_AOP_KEEP_RATIO:-0.10}
+export AOP_MIN_KEEP=${EVAL_AOP_MIN_KEEP:-64}
+export AOP_DELTA=${EVAL_AOP_DELTA:-0.10}
+export AOP_KHAT=${EVAL_AOP_KHAT:-1.0}
+export AOP_USE_BIAS=${EVAL_AOP_USE_BIAS:-1}
+export AOP_ATTN_IMPL="${EVAL_AOP_ATTN_IMPL:-"sdpa"}"
+export AOP_DEBUG=${EVAL_AOP_DEBUG:-0} # 默认关闭 debug
+# ==============================================================================
+# 打印最终配置
+# ==============================================================================
+echo "--- Final Configuration ---"
+echo "CUDA_VISIBLE_DEVICES: $CUDA_VISIBLE_DEVICES"
+echo "BATCH_SIZE: $BATCH_SIZE"
+echo "MODALITIES: ${MODALITIES[*]}"
+echo "DATA_BASEDIR: $DATA_BASEDIR"
+echo "OUTPUT_BASEDIR: $OUTPUT_BASEDIR"
+echo "MODEL_SPECS: ${MODEL_SPECS[*]}"
+echo "LM_LAYERS: $LM_LAYERS"
+echo "ZIP_ENABLED: $ZIP_ENABLED"
+echo "AOP_ENABLED: $AOP_ENABLED"
+if [ "$ZIP_ENABLED" -ne 0 ]; then
+  echo "ZIP_APPLY: $ZIP_APPLY, ZIP_METHOD: $ZIP_METHOD, ZIP_KEEP_DOM: $ZIP_KEEP_DOM, ZIP_KEEP_CTX: $ZIP_KEEP_CTX"
+fi
+if [ "$AOP_ENABLED" -ne 0 ]; then
+  echo "AOP_APPLY: $AOP_APPLY, AOP_LAYER: $AOP_LAYER, AOP_MODE: $AOP_MODE, AOP_KEEP_RATIO: $AOP_KEEP_RATIO"
+fi
+echo "---------------------------"
+# ==============================================================================
+# Run
+# ==============================================================================
+for spec in "${MODEL_SPECS[@]}"; do
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Model: $MODEL_NAME"
+  echo "================================================="
+  for MODALITY in "${MODALITIES[@]}"; do
+    # 假设 VLM2Vec 目录就是 Code/ 目录，或者脚本在 Code/ 目录下运行
+    # 并且 experiments/ 目录在 Code/ 下
+    DATA_CONFIG_PATH="experiments/public/eval/${MODALITY}.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output:   $OUTPUT_PATH"
+    echo "  - Config:   $DATA_CONFIG_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_cut_layer_unified.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing..."
+    # echo "$cmd" # Debug: 打印完整命令
+    eval "$cmd"
+    echo "  - Done."
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier.sh ADDED Viewed

	@@ -0,0 +1,70 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=32
+# 【AOP 配置】Token Pruning - 暂时关闭以匹配baseline
+export AOP_ENABLED=0
+# export AOP_APPLY=qry
+# export AOP_LAYER=12       # AOP 剪裁发生在哪一层 (需要 < EE_LAYER)
+# export AOP_MODE=ratio
+# export AOP_KEEP_RATIO_VISION=1.0 # 视觉 Token 保留 100%
+# export AOP_KEEP_RATIO_TEXT=1.0   # 文本 Token 不剪
+# export AOP_SELECTION=aop         # 使用注意力选择
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12               # 早停判定层
+export EE_METHOD=classifier      # 使用分类器
+# export EE_DEBUG_MODE=1
+export EE_THRESHOLD=0.99        # 早停阈值
+export EE_TOPK=200
+# 分类器路径：可以是 checkpoint 目录或 .pt 文件
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/~/experiments/checkpoint-600"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_Classifier_Eval_AOP_Fused_0.99"
+# 模型路径 (VLM)
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multi_layer_12_-1_0.1_0.9/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "🚀 Threshold: $EE_THRESHOLD"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_attn_pooling.sh ADDED Viewed

	@@ -0,0 +1,102 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=64
+# 【AOP 配置】Token Pruning
+export AOP_ENABLED=1
+export AOP_APPLY=both         # 只剪 query；要剪 cand 可以设 both
+export AOP_LAYER=12
+export AOP_MODE=ratio
+export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# 开启图像 / 文本剪枝
+export AOP_PRUNE_VISION=1
+export AOP_PRUNE_TEXT=1
+# 可选：合理的比例和保底
+export AOP_KEEP_RATIO_VISION=1.0     # 先不剪图像也行，想剪再改成 0.5 等
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_MIN_KEEP_VISION=8
+export AOP_MIN_KEEP_TEXT=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_MONITOR=0
+# 【VPOOL 配置】Vision Token Pooling
+export VPOOL_ENABLED=1
+export VPOOL_APPLY=both          # qry | tgt | both
+export VPOOL_LAYER=1             # pooling 发生的层（进入第1层前）
+export VPOOL_KERNEL=2            # 2x2
+export VPOOL_STRIDE=2
+export VPOOL_METHOD=attn         # NEW: attn pooling
+export VPOOL_ATTN_TAU=1.0        # NEW: attn pooling temperature
+export VPOOL_ONLY_VISION=1
+export VPOOL_PROTECT_CLS=1
+export VPOOL_MONITOR=1
+# 如果想看 debug，可以加：
+# export AOP_DEBUG=1
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=1
+# 阈值根据 V5 分析结果填入，或者保留默认值
+export EE_THRESHOLD=0
+export EE_TOPK=200
+export EE_PROFILE=1
+export EE_TOPK_EMB=10
+export EE_SKIP_LM_HEAD=1
+# 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 【关键】修改输出目录
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000_0.45_try2"
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multilayer_distill_AOP_12_attn_pooling_new_all_12_26_h100_4_node_sigma4/checkpoint-1300"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    # 【关键】调用 V5 脚本
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_AOP_attn_pooling.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_pooling.sh ADDED Viewed

	@@ -0,0 +1,212 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=64
+# 【AOP 配置】Token Pruning
+export AOP_ENABLED=0
+export AOP_APPLY=both         # 只剪 query；要剪 cand 可以设 both
+export AOP_LAYER=12
+export AOP_MODE=ratio
+export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# 开启图像 / 文本剪枝
+export AOP_PRUNE_VISION=0
+export AOP_PRUNE_TEXT=1
+# 可选：合理的比例和保底
+export AOP_KEEP_RATIO_VISION=1.0     # 先不剪图像也行，想剪再改成 0.5 等
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_MIN_KEEP_VISION=8
+export AOP_MIN_KEEP_TEXT=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_MONITOR=0
+# 【VPOOL 配置】Vision Token Pooling
+export VPOOL_ENABLED=0
+export VPOOL_APPLY=both          # qry | tgt | both
+export VPOOL_LAYER=1             # pooling 发生的层（进入第1层前）
+export VPOOL_KERNEL=2            # 2x2
+export VPOOL_STRIDE=2
+export VPOOL_METHOD=avg          # avg | max | linear | conv
+export VPOOL_ONLY_VISION=1       # 仅对视觉 token 生效
+export VPOOL_PROTECT_CLS=1
+export VPOOL_MONITOR=0           # 如需打印长度变化可设为 1
+# 如果想看 debug，可以加：
+# export AOP_DEBUG=1
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=0
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=1
+# 阈值根据 V5 分析结果填入，或者保留默认值
+export EE_THRESHOLD=0
+export EE_TOPK=200
+export EE_PROFILE=1
+export VPOOL_COMPILE=1
+export EE_TORCH_PROFILE=1
+export EE_TOPK_EMB=10
+export STAGE_PROFILE=1
+export STAGE_PROFILE_PRINT=1   # 可选：每个 dataset 结束打印
+# 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 【关键】修改输出目录
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000_optimaized_wo"
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multilayer_distill_AOP_pooling_all_12_10_h100_4/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    # 【关键】调用 V5 脚本
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_AOP_pooling.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."
+# #!/bin/bash
+# echo "==> Environment"
+# echo "conda location: $(which conda)"
+# echo "Python location: $(which python)"
+# echo "Python version: $(python --version)"
+# echo ""
+# cd VLM2Vec/ || exit
+# # ==============================================================================
+# # Configuration
+# # ==============================================================================
+# CUDA_VISIBLE_DEVICES="0"
+# BATCH_SIZE=64
+# # 【AOP 配置】Token Pruning
+# export AOP_ENABLED=1
+# export AOP_APPLY=both         # 只剪 query；要剪 cand 可以设 both
+# export AOP_LAYER=12
+# export AOP_MODE=ratio
+# export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+# export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# # 开启图像 / 文本剪枝
+# export AOP_PRUNE_VISION=0
+# export AOP_PRUNE_TEXT=1
+# # 可选：合理的比例和保底
+# export AOP_KEEP_RATIO_VISION=1.0     # 先不剪图像也行，想剪再改成 0.5 等
+# export AOP_KEEP_RATIO_TEXT=0.5
+# export AOP_MIN_KEEP_VISION=8
+# export AOP_MIN_KEEP_TEXT=8
+# export AOP_PROTECT_TEXT_LAST=8
+# export AOP_PROTECT_SPECIAL=1
+# export AOP_MONITOR=0
+# # 【VPOOL 配置】Vision Token Pooling
+# export VPOOL_ENABLED=1
+# export VPOOL_APPLY=both          # qry | tgt | both
+# export VPOOL_LAYER=1             # pooling 发生的层（进入第1层前）
+# export VPOOL_KERNEL=2            # 2x2
+# export VPOOL_STRIDE=2
+# export VPOOL_METHOD=avg          # avg | max | linear | conv
+# export VPOOL_ONLY_VISION=1       # 仅对视觉 token 生效
+# export VPOOL_PROTECT_CLS=1
+# export VPOOL_MONITOR=0           # 如需打印长度变化可设为 1
+# # 如果想看 debug，可以加：
+# # export AOP_DEBUG=1
+# # 【EE 配置】Early Exit via Classifier
+# export EE_ENABLED=1
+# export EE_LAYER=12
+# export EE_METHOD=classifier
+# export EE_DEBUG_MODE=1
+# # 阈值根据 V5 分析结果填入，或者保留默认值
+# export EE_THRESHOLD=0
+# export EE_TOPK=200
+# export EE_PROFILE=1
+# export VPOOL_COMPILE=1
+# export EE_TORCH_PROFILE=1
+# export EE_TOPK_EMB=10
+# export STAGE_PROFILE=1
+# export STAGE_PROFILE_PRINT=1   # 可选：每个 dataset 结束打印
+# # 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+# export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_7B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz512/checkpoint-1000"
+# MODALITIES=("image_retrival")
+# DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# # 【关键】修改输出目录
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_7B_multilayer_distill_AOP_pooling_all_12_10_h100_4_Classifier_Layer12_V5_i_ret_bsz512/checkpoint-1000_new"
+# MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_7B_multilayer_distill_AOP_pooling_all_12_10_h100_4/checkpoint-5000"
+# MODEL_NAME="qwen2_5_vl"
+# echo "================================================="
+# echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+# echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+# echo "================================================="
+# for MODALITY in "${MODALITIES[@]}"; do
+#     DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+#     OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+#     mkdir -p "$OUTPUT_PATH"
+#     # 【关键】调用 V5 脚本
+#     cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_AOP_pooling.py \
+#       --pooling eos \
+#       --normalize true \
+#       --per_device_eval_batch_size $BATCH_SIZE \
+#       --model_backbone \"$MODEL_NAME\" \
+#       --model_name \"$MODEL_CHECKPOINT\" \
+#       --dataset_config \"$DATA_CONFIG_PATH\" \
+#       --encode_output_path \"$OUTPUT_PATH\" \
+#       --data_basedir \"$DATA_BASEDIR\""
+#     echo "  - Executing command..."
+#     eval "$cmd"
+#     echo "  - Done."
+# done
+# echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier_AOP_pooling_new.sh ADDED Viewed

	@@ -0,0 +1,102 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=64
+# 【AOP 配置】Token Pruning
+export AOP_ENABLED=0
+export AOP_APPLY=both         # 只剪 query；要剪 cand 可以设 both
+export AOP_LAYER=10
+export AOP_MODE=ratio
+export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# 开启图像 / 文本剪枝
+export AOP_PRUNE_VISION=1
+export AOP_PRUNE_TEXT=1
+# 可选：合理的比例和保底
+export AOP_KEEP_RATIO_VISION=1.0     # 先不剪图像也行，想剪再改成 0.5 等
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_MIN_KEEP_VISION=8
+export AOP_MIN_KEEP_TEXT=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_MONITOR=0
+# 【VPOOL 配置】Vision Token Pooling
+export VPOOL_ENABLED=1
+export VPOOL_APPLY=both          # qry | tgt | both
+export VPOOL_LAYER=1             # pooling 发生的层（进入第1层前）
+export VPOOL_KERNEL=2            # 2x2
+export VPOOL_STRIDE=2
+export VPOOL_METHOD=avg          # avg | max | linear | conv
+export VPOOL_ONLY_VISION=1       # 仅对视觉 token 生效
+export VPOOL_PROTECT_CLS=1
+export VPOOL_MONITOR=0           # 如需打印长度变化可设为 1
+# 如果想看 debug，可以加：
+# export AOP_DEBUG=1
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=1
+# 阈值根据 V5 分析结果填入，或者保留默认值
+export EE_THRESHOLD=0
+export EE_TOPK=200
+export EE_PROFILE=1
+export EE_TOPK_EMB=10
+export EE_SKIP_LM_HEAD=1
+# 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+# export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_7B_multilayer_distill_aop_10_pooling_i_ret_12_30_h100_2_node_Classifier_L12_i_ret_bsz512/checkpoint-1000"
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_multilayer_distill_AOP_10_pooling_12_26_a100_multinode_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 【关键】修改输出目录
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_multilayer_distill_AOP_10_pooling_12_26_a100_multinode_Classifier_Layer12_V5_i_ret_bsz128/checkpoint-1000_only_Vision"
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_7B_multilayer_distill_aop_10_pooling_i_ret_12_30_h100_2_node/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    # 【关键】调用 V5 脚本
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_AOP_pooling_new.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier_V5.sh ADDED Viewed

	@@ -0,0 +1,88 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=64
+# 【AOP 配置】Token Pruning
+export AOP_ENABLED=1
+export AOP_APPLY=qry         # 只剪 query；要剪 cand 可以设 both
+export AOP_LAYER=12
+export AOP_MODE=ratio
+export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# 开启图像 / 文本剪枝
+export AOP_PRUNE_VISION=1
+export AOP_PRUNE_TEXT=1
+# 可选：合理的比例和保底
+export AOP_KEEP_RATIO_VISION=1.0     # 先不剪图像也行，想剪再改成 0.5 等
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_MIN_KEEP_VISION=8
+export AOP_MIN_KEEP_TEXT=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+# 如果想看 debug，可以加：
+# export AOP_DEBUG=1
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=1
+# 阈值根据 V5 分析结果填入，或者保留默认值
+export EE_THRESHOLD=0
+export EE_TOPK=200
+export EE_PROFILE=1
+export EE_TOPK_EMB=10
+# 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_DISTILL_FLOOR_0_12_3_h100_3_Classifier_Layer12_V5_i_ret/checkpoint-800"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 【关键】修改输出目录
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_add_distill_0.2_0.6_DISTILL_FLOOR_0_12_3_h100_3_Classifier_Layer12_V5_i_ret/checkpoint-800_0.3"
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_h100/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    # 【关键】调用 V5 脚本
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_V5.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_early_exit_classifier_V5_new.sh ADDED Viewed

	@@ -0,0 +1,99 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=64
+# 【VPOOL 配置】Vision Token Pooling（如需启用，设为1）
+export VPOOL_ENABLED=1
+export VPOOL_APPLY=both        # qry|cand|both
+export VPOOL_LAYER=1           # 进入第 1 层前做 pooling
+export VPOOL_KERNEL=2
+export VPOOL_STRIDE=2
+export VPOOL_METHOD=avg        # avg|max|linear|conv
+export VPOOL_PROTECT_CLS=1
+export VPOOL_ONLY_VISION=1
+export VPOOL_MONITOR=1
+# 显存优化（可选）
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+# 【AOP 配置】Token Pruning
+export AOP_ENABLED=1
+export AOP_APPLY=qry         # 只剪 query；要剪 cand 可以设 both
+export AOP_LAYER=12
+export AOP_MODE=ratio
+export AOP_SELECTION=attention  # 使用注意力作为重要性分数
+export AOP_ATTENTION_AGG=mean   # head 聚合方式：mean/max/sum
+# 开启图像 / 文本剪枝
+export AOP_PRUNE_TEXT=1
+export AOP_PRUNE_VISION=0
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_KEEP_RATIO_VISION=0.5
+export AOP_MIN_KEEP_TEXT=16
+export AOP_MIN_KEEP_VISION=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_RANDOM_SEED=42
+export AOP_MONITOR=1
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=1
+# 阈值根据 V5 分析结果填入，或者保留默认值
+export EE_THRESHOLD=0
+export EE_TOPK=200
+export EE_PROFILE=1
+export EE_TOPK_EMB=10
+# 【关键】分类器路径 (替换为您 V5 训练的 checkpoint 路径)
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_DISTILL_FLOOR_0_12_3_h100_3_Classifier_Layer12_V5_i_ret/checkpoint-800"
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 【关键】修改输出目录
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_add_distill_0.2_0.6_DISTILL_FLOOR_0_12_3_h100_3_Classifier_Layer12_V5_i_ret/checkpoint-800_0"
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_h100/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+echo "================================================="
+echo "🚀 Pipeline: AOP + Early Exit Classifier (V5)"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "================================================="
+for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$OUTPUT_BASEDIR/$MODALITY/"
+    mkdir -p "$OUTPUT_PATH"
+    # 【关键】调用 V5 脚本
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier_V5_new.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_NAME\" \
+      --model_name \"$MODEL_CHECKPOINT\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    eval "$cmd"
+    echo "  - Done."
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_multilayer_AOP_attn_pooling.sh ADDED Viewed

	@@ -0,0 +1,108 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=64
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec_AOP/t_0.5_8_i_0.5_16_both_l12_bsz64" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/checkpoint-20" #/t_0.5_8_i_0.5_16_both_l12_bsz64 #_qry_cand_diff_ratio
+# ==== AOP + Vision Token Pooling（启用）====
+export VPOOL_ENABLED=1
+export VPOOL_APPLY=both
+export VPOOL_LAYER=1
+export VPOOL_KERNEL=2
+export VPOOL_STRIDE=2
+# === 改这里：启用 attention pooling ===
+export VPOOL_METHOD=attn       # attn | avg | max | ...
+export VPOOL_ATTN_TAU=1.0      # NEW: attention pooling temperature
+export VPOOL_PROTECT_CLS=1
+export VPOOL_ONLY_VISION=1
+export VPOOL_MONITOR=1
+export AOP_ENABLED=1
+export AOP_APPLY=both          # qry|cand|both
+export AOP_LAYER=13
+export AOP_MODE=ratio
+export AOP_SELECTION=attention
+export AOP_ATTENTION_AGG=mean
+export AOP_PRUNE_TEXT=1
+export AOP_PRUNE_VISION=0
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_KEEP_RATIO_VISION=0.5
+export AOP_MIN_KEEP_TEXT=16
+export AOP_MIN_KEEP_VISION=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_RANDOM_SEED=42
+export AOP_MONITOR=1
+export EE_SKIP_LM_HEAD=1
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/exps/checkpoint-20;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="LM_LAYERS='last' CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_multilayer_AOP_attn_pooling.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_multilayer_AOP_new.sh ADDED Viewed

	@@ -0,0 +1,106 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=64
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec_AOP/t_0.5_8_i_0.5_16_both_l12_bsz64" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_7B_multilayer_distill_aop_10_pooling_i_ret_12_30_h100_2_node/checkpoint-5000/aop_t_0.5_8_both_l6_bsz64" #_qry_cand_diff_ratio
+# OUTPUT_BASEDIR="/home/v-menggao/code/vlmvector_qwen25vl_train_multi_layer_distill_AOP_pooling_layer8_ablation_1230/result" #_qry_cand_diff_ratio
+# ==== AOP + Vision Token Pooling（启用）====
+export VPOOL_ENABLED=1
+export VPOOL_APPLY=both        # qry|cand|both
+export VPOOL_LAYER=1           # 进入第 1 层前做 pooling
+export VPOOL_KERNEL=2          # 2x2 pooling
+export VPOOL_STRIDE=2
+export VPOOL_METHOD=avg        # avg|max|linear|conv
+export VPOOL_PROTECT_CLS=1
+export VPOOL_ONLY_VISION=1
+export VPOOL_MONITOR=0         # 打印 pooling 前后长度
+export AOP_ENABLED=1
+export AOP_APPLY=both          # qry|cand|both
+export AOP_LAYER=10
+export AOP_MODE=ratio
+export AOP_SELECTION=aop       #attention
+export AOP_ATTENTION_AGG=mean
+export AOP_PRUNE_TEXT=1
+export AOP_PRUNE_VISION=0
+export AOP_KEEP_RATIO_TEXT=0.5
+export AOP_KEEP_RATIO_VISION=0.5
+export AOP_MIN_KEEP_TEXT=8
+export AOP_MIN_KEEP_VISION=8
+export AOP_PROTECT_TEXT_LAST=8
+export AOP_PROTECT_SPECIAL=1
+export AOP_RANDOM_SEED=42
+export AOP_MONITOR=0
+export EE_SKIP_LM_HEAD=1
+export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_7B_multilayer_distill_aop_10_pooling_i_ret_12_30_h100_2_node/checkpoint-5000;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "/home/v-menggao/code/vlmvector_qwen25vl_train_multi_layer_distill_AOP_pooling_layer8_ablation_1230/checkpoint-900;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="LM_LAYERS='12,last' CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_multilayer_AOP_new.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_1gpu_output_attn.sh ADDED Viewed

	@@ -0,0 +1,83 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=64
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# OUTPUT_BASEDIR="~/exps/vlm2vec_bsz128"
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2vl_2B.add_mlp_try1/checkpoint-500" #_qry_cand_diff_ratio
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/VLM2Vec-output-attn/VLM2Vec-V2.0" #_qry_cand_diff_ratio
+# OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/try_add_mlp_try/stage1" #_qry_cand_diff_ratio
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+# MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.image/checkpoint-1000
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+MODEL_SPECS+=( "VLM2Vec/VLM2Vec-V2.0;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Qwen/Qwen2.5-VL-3B-Instruct;qwen2_5_vl;$OUTPUT_BASEDIR/VLM2Vec-Qwen2.5VL-3B" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.add_mlp_try1/checkpoint-500;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-Qwen2VL-2B" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.add_mlp_8000_16000/checkpoint-7200;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-Qwen2VL-2B" )
+# MODEL_SPECS+=( "/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2vl_2B.add_mlp/stage1;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V2.0-Qwen2VL-2B" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-2B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-2B-Instruct" )
+# MODEL_SPECS+=( "Alibaba-NLP/gme-Qwen2-VL-7B-Instruct;gme;$OUTPUT_BASEDIR/gme-Qwen2-VL-7B-Instruct" )
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret;lamra;$OUTPUT_BASEDIR/LamRA-Ret" )lamra_qwen25
+# MODEL_SPECS+=( "code-kunkun/LamRA-Ret-Qwen2.5VL-7b;lamra_qwen25;$OUTPUT_BASEDIR/LamRA-Ret-Qwen2.5VL-7b" )
+# MODEL_SPECS+=( "vidore/colpali-v1.3;colpali;$OUTPUT_BASEDIR/colpali-v1.3" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/eval_vlm2vecv1_8gpu.sh ADDED Viewed

	@@ -0,0 +1,71 @@

+#!/bin/bash
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd projects/VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7"
+BATCH_SIZE=32
+MODALITIES=("image" "video" "visdoc")
+DATA_BASEDIR="~/data/vlm2vec_eval"
+OUTPUT_BASEDIR="~/exps/vlm2vec/"
+# ==> Define models and their base output paths here
+# Format: "MODEL_NAME;BASE_OUTPUT_PATH"
+declare -a MODEL_SPECS
+MODEL_SPECS+=( "TIGER-Lab/VLM2Vec-Qwen2VL-2B;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V1-Qwen2VL-2B" )
+MODEL_SPECS+=( "TIGER-Lab/VLM2Vec-Qwen2VL-7B;qwen2_vl;$OUTPUT_BASEDIR/VLM2Vec-V1-Qwen2VL-7B" )
+# ==============================================================================
+# Main Execution Loop
+# ==============================================================================
+# Loop through each model specification
+for spec in "${MODEL_SPECS[@]}"; do
+  # Parse the model name and base output path from the spec string
+  IFS=';' read -r MODEL_NAME MODEL_BACKBONE BASE_OUTPUT_PATH <<< "$spec"
+  echo "================================================="
+  echo "🚀 Processing Model: $MODEL_NAME"
+  echo "================================================="
+  # Loop through each modality for the current model
+  for MODALITY in "${MODALITIES[@]}"; do
+    DATA_CONFIG_PATH="experiments/release/eval/$MODALITY.yaml"
+    OUTPUT_PATH="$BASE_OUTPUT_PATH/$MODALITY/"
+    echo "-------------------------------------------------"
+    echo "  - Modality: $MODALITY"
+    echo "  - Output Path: $OUTPUT_PATH"
+    # Ensure the output directory exists
+    mkdir -p "$OUTPUT_PATH"
+    cmd="CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES torchrun --nproc_per_node=8 --master_port=2233 --max_restarts=0 eval.py \
+      --pooling eos \
+      --normalize true \
+      --per_device_eval_batch_size $BATCH_SIZE \
+      --model_backbone \"$MODEL_BACKBONE\" \
+      --model_name \"$MODEL_NAME\" \
+      --resize_use_processor false \
+      --image_resolution high \
+      --dataset_config \"$DATA_CONFIG_PATH\" \
+      --encode_output_path \"$OUTPUT_PATH\" \
+      --data_basedir \"$DATA_BASEDIR\""
+    echo "  - Executing command..."
+    # echo "$cmd" # Uncomment for debugging the exact command
+    eval "$cmd"
+    echo "  - Done."
+    echo "-------------------------------------------------"
+  done
+done
+echo "✅ All jobs completed."

experiments/public/eval/image_retrival.yaml ADDED Viewed

	@@ -0,0 +1,101 @@

+# RET i -> i
+CIRR:
+    dataset_parser: image_i2i_vg
+    dataset_name: CIRR
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+NIGHTS:
+    dataset_parser: image_i2i_vg
+    dataset_name: NIGHTS
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+OVEN:
+    dataset_parser: image_i2i_vg
+    dataset_name: OVEN
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+FashionIQ:
+    dataset_parser: image_i2i_vg
+    dataset_name: FashionIQ
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+# RET i -> t
+MSCOCO_i2t:
+    dataset_parser: image_i2t
+    dataset_name: MSCOCO_i2t
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+VisualNews_i2t:
+    dataset_parser: image_i2t
+    dataset_name: VisualNews_i2t
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+# RET t -> i
+VisDial:
+    dataset_parser: image_t2i
+    dataset_name: VisDial
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+MSCOCO_t2i:
+    dataset_parser: image_t2i
+    dataset_name: MSCOCO_t2i
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+VisualNews_t2i:
+    dataset_parser: image_t2i
+    dataset_name: VisualNews_t2i
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+WebQA:
+    dataset_parser: image_t2i
+    dataset_name: WebQA
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+EDIS:
+    dataset_parser: image_t2i
+    dataset_name: EDIS
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+Wiki-SS-NQ:
+    dataset_parser: image_t2i
+    dataset_name: Wiki-SS-NQ
+    dataset_split: test
+    image_root: image-tasks/MMEB
+    eval_type: local
+# # RET i -> i
+# CIRR:
+#     dataset_parser: image_i2i_vg
+#     dataset_name: CIRR
+#     dataset_split: test
+#     image_root: image-tasks/MMEB
+#     eval_type: local
+# NIGHTS:
+#     dataset_parser: image_i2i_vg
+#     dataset_name: NIGHTS
+#     dataset_split: test
+#     image_root: image-tasks/MMEB
+#     eval_type: local
+# OVEN:
+#     dataset_parser: image_i2i_vg
+#     dataset_name: OVEN
+#     dataset_split: test
+#     image_root: image-tasks/MMEB
+#     eval_type: local
+# FashionIQ:
+#     dataset_parser: image_i2i_vg
+#     dataset_name: FashionIQ
+#     dataset_split: test
+#     image_root: image-tasks/MMEB
+#     eval_type: local

experiments/public/eval/mieb_any2any_retrieval_lite.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+# CIRRIT2IRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: CIRRIT2IRetrieval
+#     dataset_split: test
+#     eval_type: global
+# CUB200I2IRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: CUB200I2IRetrieval
+#     dataset_split: test
+#     eval_type: global
+# Fashion200kI2TRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: Fashion200kI2TRetrieval
+#     dataset_split: test
+#     eval_type: global
+# HatefulMemesI2TRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: HatefulMemesI2TRetrieval
+#     dataset_split: test
+#     eval_type: global
+InfoSeekIT2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: InfoSeekIT2TRetrieval
+    dataset_split: test
+    eval_type: global
+NIGHTSI2IRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: NIGHTSI2IRetrieval
+    dataset_split: test
+    eval_type: global
+OVENIT2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: OVENIT2TRetrieval
+    dataset_split: test
+    eval_type: global
+RP2kI2IRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: RP2kI2IRetrieval
+    dataset_split: test
+    eval_type: global
+VisualNewsI2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: VisualNewsI2TRetrieval
+    dataset_split: test
+    eval_type: global
+VQA2IT2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: VQA2IT2TRetrieval
+    dataset_split: test
+    eval_type: global
+WebQAT2ITRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: WebQAT2ITRetrieval
+    dataset_split: test
+    eval_type: global

experiments/public/eval/mieb_any2any_retrieval_lite2.yaml ADDED Viewed

	@@ -0,0 +1,55 @@

+# CIRRIT2IRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: CIRRIT2IRetrieval
+#     dataset_split: test
+#     eval_type: global
+# CUB200I2IRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: CUB200I2IRetrieval
+#     dataset_split: test
+#     eval_type: global
+# Fashion200kI2TRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: Fashion200kI2TRetrieval
+#     dataset_split: test
+#     eval_type: global
+# HatefulMemesI2TRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: HatefulMemesI2TRetrieval
+#     dataset_split: test
+#     eval_type: global
+# InfoSeekIT2TRetrieval:
+#     dataset_parser: mieb_any2any_retrieval
+#     dataset_name: InfoSeekIT2TRetrieval
+#     dataset_split: test
+#     eval_type: global
+NIGHTSI2IRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: NIGHTSI2IRetrieval
+    dataset_split: test
+    eval_type: global
+OVENIT2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: OVENIT2TRetrieval
+    dataset_split: test
+    eval_type: global
+RP2kI2IRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: RP2kI2IRetrieval
+    dataset_split: test
+    eval_type: global
+VisualNewsI2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: VisualNewsI2TRetrieval
+    dataset_split: test
+    eval_type: global
+VQA2IT2TRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: VQA2IT2TRetrieval
+    dataset_split: test
+    eval_type: global
+WebQAT2ITRetrieval:
+    dataset_parser: mieb_any2any_retrieval
+    dataset_name: WebQAT2ITRetrieval
+    dataset_split: test
+    eval_type: global

experiments/public/eval/run_batch_benchmark.sh ADDED Viewed

	@@ -0,0 +1,112 @@

+#!/bin/bash
+# ======================= 配置区域 =======================
+CUDA_VISIBLE_DEVICES="0"
+# 模型路径
+MODEL_PATH="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_h100/checkpoint-5000"
+# 分类器路径
+CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/experiments/Qwen2_5vl_3B_add_distill_0.2_0.6_11_23_Classifier_Layer12_ImgText_V5_i_ret/checkpoint-500"
+# 结果保存路径
+RESULT_CSV="final_speedup_results.csv"
+RESULT_LOG="final_benchmark.log"
+# 要跑的数据集列表
+DATASETS=(
+    "CIRR"
+    "EDIS"
+    "FashionIQ"
+    "NIGHTS"
+    "OVEN"
+    "VisDial"
+    "MSCOCO_i2t"
+    "MSCOCO_t2i"
+    "VisualNews_i2t"
+    "VisualNews_t2i"
+    "WebQA"
+    "Wiki-SS-NQ"
+)
+# Eval Config 模板目录
+CONFIG_DIR="/home/v-menggao/code/VLM2Vec/experiments/public/eval"
+# ========================================================
+# 初始化结果文件
+echo "Dataset,Baseline_Latency(ms),Ours_Latency(ms),Speedup_Ratio,Exit_Rate" > $RESULT_CSV
+echo "================= Benchmark Started at $(date) =================" > $RESULT_LOG
+echo "🚀 Starting Batch Benchmark on ${#DATASETS[@]} datasets..."
+echo "📄 Results will be saved to: $RESULT_CSV"
+# 循环遍历每一个数据集
+for DATASET in "${DATASETS[@]}"; do
+    CONFIG_PATH="$CONFIG_DIR/$DATASET.yaml"
+    if [ ! -f "$CONFIG_PATH" ]; then
+        echo "⚠️  Config not found for $DATASET, skipping..." | tee -a $RESULT_LOG
+        continue
+    fi
+    echo ""
+    echo "----------------------------------------------------------------"
+    echo "📊 Benchmarking Dataset: $DATASET"
+    echo "----------------------------------------------------------------"
+    # 1. 跑 Baseline (Full Forward)
+    echo "   🐢 Running Baseline..."
+    export EE_ENABLED=0
+    export AOP_ENABLED=0
+    LOG_BASE=$(CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_benchmark_V5.py \
+      --model_name "$MODEL_PATH" \
+      --dataset_config "$CONFIG_PATH" \
+      --per_device_eval_batch_size 64 \
+      --dataloader_num_workers 4 \
+      2>>$RESULT_LOG)
+    # 提取 Baseline Latency (使用 grep 和 sed)
+    LAT_BASE=$(echo "$LOG_BASE" | grep "\[BENCHMARK_RESULT\]" | sed -n 's/.*Latency=\([0-9.]*\)ms.*/\1/p')
+    # 2. 跑 Ours (Early Exit)
+    echo "   🚀 Running Ours (Ratio=0.5)..."
+    export EE_ENABLED=1
+    export AOP_ENABLED=1
+    export EE_LAYER=12
+    export EE_CLASSIFIER_PATH="$CLASSIFIER_PATH"
+    export EE_THRESHOLD=0.3 # 强制固定 Ratio 以测量理论加速能力
+    LOG_OURS=$(CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_benchmark_V5.py \
+      --model_name "$MODEL_PATH" \
+      --dataset_config "$CONFIG_PATH" \
+      --per_device_eval_batch_size 64 \
+      --dataloader_num_workers 4 \
+      2>>$RESULT_LOG)
+    # 提取 Ours Latency
+    LAT_OURS=$(echo "$LOG_OURS" | grep "\[BENCHMARK_RESULT\]" | sed -n 's/.*Latency=\([0-9.]*\)ms.*/\1/p')
+    # 3. 计算与记录
+    if [ -z "$LAT_BASE" ] || [ -z "$LAT_OURS" ]; then
+        echo "   ❌ Error: Failed to parse latency for $DATASET." | tee -a $RESULT_LOG
+        echo "$DATASET,ERROR,ERROR,0,0" >> $RESULT_CSV
+    else
+        # 使用 python 做浮点数除法计算加速比 (比 shell bc 更稳健)
+        SPEEDUP=$(python -c "print(f'{float($LAT_BASE)/float($LAT_OURS):.2f}')")
+        echo "   ✅ Result: Base=${LAT_BASE}ms | Ours=${LAT_OURS}ms | Speedup=${SPEEDUP}x"
+        # 写入 CSV
+        echo "$DATASET,$LAT_BASE,$LAT_OURS,$SPEEDUP,0.5" >> $RESULT_CSV
+    fi
+done
+echo ""
+echo "================================================================"
+echo "🎉 Batch Benchmark Completed!"
+echo "📄 Final Data: $RESULT_CSV"
+echo "================================================================"
+# 打印最终表格到终端以便查看
+echo ""
+column -s, -t $RESULT_CSV

experiments/public/eval/scan_threshold.sh ADDED Viewed

	@@ -0,0 +1,176 @@

+#!/bin/bash
+# =============================================================================
+# Threshold Scanning Script for Early Exit Classifier
+# 自动扫描不同threshold下的性能表现
+# =============================================================================
+echo "==> Environment"
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+echo ""
+cd VLM2Vec/ || exit
+# ==============================================================================
+# Configuration
+# ==============================================================================
+CUDA_VISIBLE_DEVICES="0"
+BATCH_SIZE=32
+# 【AOP 配置】Token Pruning - 关闭以匹配baseline
+export AOP_ENABLED=0
+# 【EE 配置】Early Exit via Classifier
+export EE_ENABLED=1
+export EE_LAYER=12
+export EE_METHOD=classifier
+export EE_DEBUG_MODE=0  # 关闭DEBUG模式加速
+export EE_TOPK=200
+# 分类器路径
+export EE_CLASSIFIER_PATH="/home/v-menggao/code/VLM2Vec/~/experiments/checkpoint-600"
+# 数据集配置
+MODALITIES=("image_retrival")
+DATA_BASEDIR="~/data/vlm2vec_eval/MMEB-V2"
+# 模型路径
+MODEL_CHECKPOINT="/home/v-menggao/code/VLM2Vec/~/experiments/Qwen2_5vl_3B_multi_layer_12_-1_0.1_0.9/checkpoint-5000"
+MODEL_NAME="qwen2_5_vl"
+# 【关键】Threshold扫描范围
+# 根据你的实验结果，密集扫描0.95-1.0区间
+THRESHOLDS=(0.95 0.96 0.97 0.975 0.98 0.985 0.99 0.995 1.0)
+# 输出目录基础路径
+OUTPUT_BASEDIR="/home/v-menggao/code/VLM2Vec/~/exps/Qwen2_5vl_3B_Classifier_ThresholdScan"
+echo "================================================="
+echo "🚀 Threshold Scanning for Early Exit Classifier"
+echo "🚀 Classifier: $EE_CLASSIFIER_PATH"
+echo "🚀 Threshold Range: ${THRESHOLDS[@]}"
+echo "🚀 Total Runs: ${#THRESHOLDS[@]}"
+echo "================================================="
+echo ""
+# 创建结果汇总文件
+SUMMARY_FILE="${OUTPUT_BASEDIR}/threshold_scan_summary.txt"
+mkdir -p "$OUTPUT_BASEDIR"
+# 写入表头
+echo "=================================================" > "$SUMMARY_FILE"
+echo "Threshold Scanning Results" >> "$SUMMARY_FILE"
+echo "Date: $(date)" >> "$SUMMARY_FILE"
+echo "Classifier: $EE_CLASSIFIER_PATH" >> "$SUMMARY_FILE"
+echo "=================================================" >> "$SUMMARY_FILE"
+echo "" >> "$SUMMARY_FILE"
+printf "%-12s %-15s %-10s %-10s %-10s %-10s\n" "Threshold" "Dataset" "Hit@1" "Hit@5" "Hit@10" "Exit Rate" >> "$SUMMARY_FILE"
+echo "--------------------------------------------------------------------------------" >> "$SUMMARY_FILE"
+# 循环扫描每个threshold
+for THRESHOLD in "${THRESHOLDS[@]}"; do
+    echo ""
+    echo "=========================================="
+    echo "Testing Threshold: $THRESHOLD"
+    echo "=========================================="
+    # 设置当前threshold
+    export EE_THRESHOLD=$THRESHOLD
+    # 设置输出路径（包含threshold信息）
+    OUTPUT_PATH="${OUTPUT_BASEDIR}/threshold_${THRESHOLD}"
+    for MODALITY in "${MODALITIES[@]}"; do
+        DATA_CONFIG_PATH="/home/v-menggao/code/VLM2Vec/experiments/public/eval/$MODALITY.yaml"
+        # 创建输出目录
+        MODALITY_OUTPUT_PATH="${OUTPUT_PATH}/${MODALITY}"
+        mkdir -p "$MODALITY_OUTPUT_PATH"
+        echo "  - Running $MODALITY with threshold=$THRESHOLD..."
+        # 执行评测
+        CUDA_VISIBLE_DEVICES=$CUDA_VISIBLE_DEVICES python eval_test_time_with_classifier.py \
+          --pooling eos \
+          --normalize true \
+          --per_device_eval_batch_size $BATCH_SIZE \
+          --model_backbone "$MODEL_NAME" \
+          --model_name "$MODEL_CHECKPOINT" \
+          --dataset_config "$DATA_CONFIG_PATH" \
+          --encode_output_path "$MODALITY_OUTPUT_PATH" \
+          --data_basedir "$DATA_BASEDIR" 2>&1 | tee "${OUTPUT_PATH}/${MODALITY}_log.txt"
+        # 提取结果（从日志中解析）
+        LOG_FILE="${OUTPUT_PATH}/${MODALITY}_log.txt"
+        # 解析每个数据集的结果
+        if [ -f "$LOG_FILE" ]; then
+            # 使用Python快速解析JSON结果
+            python3 << EOF >> "$SUMMARY_FILE"
+import json
+import re
+import sys
+log_file = "${LOG_FILE}"
+threshold = ${THRESHOLD}
+try:
+    with open(log_file, 'r') as f:
+        content = f.read()
+    # 提取Early Exit Stats
+    exit_match = re.search(r'Early Exit Stats: Exit=(\d+)/(\d+)', content)
+    if exit_match:
+        exit_count = int(exit_match.group(1))
+        total_count = int(exit_match.group(2))
+        exit_rate = exit_count / total_count if total_count > 0 else 0.0
+    else:
+        exit_rate = -1.0
+    # 查找所有数据集的结果JSON文件
+    import os
+    import glob
+    result_files = glob.glob("${OUTPUT_PATH}/${MODALITY}/*_score_earlyexit.json")
+    for result_file in result_files:
+        dataset_name = os.path.basename(result_file).replace("_score_earlyexit.json", "")
+        with open(result_file, 'r') as rf:
+            results = json.load(rf)
+        hit1 = results.get('hit@1', -1)
+        hit5 = results.get('hit@5', -1)
+        hit10 = results.get('hit@10', -1)
+        print(f"{threshold:<12.3f} {dataset_name:<15s} {hit1:<10.4f} {hit5:<10.4f} {hit10:<10.4f} {exit_rate:<10.2%}")
+except Exception as e:
+    print(f"{threshold:<12.3f} {'ERROR':<15s} {'-':<10s} {'-':<10s} {'-':<10s} {'-':<10s}", file=sys.stderr)
+    print(f"Error: {e}", file=sys.stderr)
+EOF
+        fi
+    done
+    echo "  ✓ Threshold $THRESHOLD completed"
+done
+echo "" >> "$SUMMARY_FILE"
+echo "=================================================" >> "$SUMMARY_FILE"
+echo "Scan completed at $(date)" >> "$SUMMARY_FILE"
+echo "=================================================" >> "$SUMMARY_FILE"
+echo ""
+echo "=========================================="
+echo "✅ All threshold scanning completed!"
+echo "=========================================="
+echo ""
+echo "📊 Results summary saved to:"
+echo "   $SUMMARY_FILE"
+echo ""
+echo "📁 Detailed results in:"
+echo "   $OUTPUT_BASEDIR"
+echo ""
+# 显示汇总结果
+echo "📈 Quick Summary:"
+cat "$SUMMARY_FILE"

experiments/public/eval/visdoc_retrival.yaml ADDED Viewed

	@@ -0,0 +1,141 @@

+ViDoRe_arxivqa:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_arxivqa
+    image_root: visdoc-tasks/ViDoRe_arxivqa
+    eval_type: global
+ViDoRe_docvqa:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_docvqa
+    image_root: visdoc-tasks/ViDoRe_docvqa
+    eval_type: global
+ViDoRe_infovqa:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_infovqa
+    image_root: visdoc-tasks/ViDoRe_infovqa
+    eval_type: global
+ViDoRe_tabfquad:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_tabfquad
+    image_root: visdoc-tasks/ViDoRe_tabfquad
+    eval_type: global
+ViDoRe_tatdqa:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_tatdqa
+    image_root: visdoc-tasks/ViDoRe_tatdqa
+    eval_type: global
+ViDoRe_shiftproject:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_shiftproject
+    image_root: visdoc-tasks/ViDoRe_shiftproject
+    eval_type: global
+ViDoRe_syntheticDocQA_artificial_intelligence:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_syntheticDocQA_artificial_intelligence
+    image_root: visdoc-tasks/ViDoRe_syntheticDocQA_artificial_intelligence
+    eval_type: global
+ViDoRe_syntheticDocQA_energy:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_syntheticDocQA_energy
+    image_root: visdoc-tasks/ViDoRe_syntheticDocQA_energy
+    eval_type: global
+ViDoRe_syntheticDocQA_government_reports:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_syntheticDocQA_government_reports
+    image_root: visdoc-tasks/ViDoRe_syntheticDocQA_government_reports
+    eval_type: global
+ViDoRe_syntheticDocQA_healthcare_industry:
+    dataset_parser: vidore
+    dataset_name: ViDoRe_syntheticDocQA_healthcare_industry
+    image_root: visdoc-tasks/ViDoRe_syntheticDocQA_healthcare_industry
+    eval_type: global
+#ViDoRe_esg_reports_human_labeled_v2:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_esg_reports_human_labeled_v2
+#    image_root: visdoc-tasks/esg_reports_human_labeled_v2
+#    eval_type: global
+#ViDoRe_biomedical_lectures_v2:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_biomedical_lectures_v2
+#    image_root: visdoc-tasks/biomedical_lectures_v2
+#    eval_type: global
+#ViDoRe_biomedical_lectures_v2_multilingual:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_biomedical_lectures_v2_multilingual
+#    image_root: visdoc-tasks/biomedical_lectures_v2_multilingual
+#    eval_type: global
+#ViDoRe_economics_reports_v2:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_economics_reports_v2
+#    image_root: visdoc-tasks/economics_reports_v2
+#    eval_type: global
+#ViDoRe_economics_reports_v2_multilingual:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_economics_reports_v2_multilingual
+#    image_root: visdoc-tasks/economics_reports_v2_multilingual
+#    eval_type: global
+#ViDoRe_esg_reports_v2:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_esg_reports_v2
+#    image_root: visdoc-tasks/esg_reports_v2
+#    eval_type: global
+#ViDoRe_esg_reports_v2_multilingual:
+#    dataset_parser: vidore
+#    dataset_name: ViDoRe_esg_reports_v2_multilingual
+#    image_root: visdoc-tasks/esg_reports_v2_multilingual
+#    eval_type: global
+VisRAG_ArxivQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_ArxivQA
+    image_root: visdoc-tasks/VisRAG_ArxivQA
+    eval_type: global
+VisRAG_ChartQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_ChartQA
+    image_root: visdoc-tasks/VisRAG_ChartQA
+    eval_type: global
+VisRAG_MP-DocVQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_MP-DocVQA
+    image_root: visdoc-tasks/VisRAG_MP-DocVQA
+    eval_type: global
+VisRAG_SlideVQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_SlideVQA
+    image_root: visdoc-tasks/VisRAG_SlideVQA
+    eval_type: global
+VisRAG_InfoVQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_InfoVQA
+    image_root: visdoc-tasks/VisRAG_InfoVQA
+    eval_type: global
+VisRAG_PlotQA:
+    dataset_parser: visrag
+    dataset_name: VisRAG_PlotQA
+    image_root: visdoc-tasks/VisRAG_PlotQA
+    eval_type: global
+ViDoSeek-page:
+    dataset_parser: vidore
+    dataset_name: ViDoSeek-page
+    image_root: visdoc-tasks/ViDoSeek-page
+    eval_type: global
+ViDoSeek-doc:
+    dataset_parser: vidore
+    dataset_name: ViDoSeek-doc
+    image_root: visdoc-tasks/ViDoSeek-doc
+    eval_type: global
+MMLongBench-doc:
+    dataset_parser: vidore
+    dataset_name: MMLongBench-doc
+    image_root: visdoc-tasks/MMLongBench-doc
+    eval_type: global
+MMLongBench-page:
+    dataset_parser: vidore
+    dataset_name: MMLongBench-page
+    image_root: visdoc-tasks/MMLongBench-page
+    eval_type: global

experiments/public/train/train_alltasks.yaml ADDED Viewed

	@@ -0,0 +1,395 @@

+# ImageNet_1K:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: ImageNet_1K
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# N24News:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: N24News
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 50000
+#     weight: 1
+# HatefulMemes:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: HatefulMemes
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 0.5
+# VOC2007:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: VOC2007
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 0.5
+# SUN397:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: SUN397
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 0.5
+# OK-VQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: OK-VQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 0.5
+# A-OKVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: A-OKVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 0.5
+# DocVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: DocVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 40000
+#     weight: 1
+# InfographicsVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: InfographicsVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 25000
+#     weight: 0.5
+# ChartQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: ChartQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 28000
+#     weight: 0.5
+# Visual7W:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: Visual7W
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 70000
+#     weight: 1
+# VisDial:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: VisDial
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 130000
+#     weight: 1
+# CIRR:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: CIRR
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 30000
+#     weight: 0.5
+# VisualNews_t2i:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: VisualNews_t2i
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# VisualNews_i2t:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: VisualNews_i2t
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# MSCOCO_t2i:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: MSCOCO_t2i
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# MSCOCO_i2t:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: MSCOCO_i2t
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 120000
+#     weight: 1
+# NIGHTS:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: NIGHTS
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 0.5
+# WebQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: WebQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 0.5
+# MSCOCO:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: MSCOCO
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# colpali_train_set:
+#     dataset_parser: vidore
+#     dataset_name: vidore/colpali_train_set
+#     weight: 10
+# visrag-indomain:
+#     dataset_parser: visrag
+#     dataset_name: openbmb/VisRAG-Ret-Train-In-domain-data
+#     global_dataset_name: VisRAG-Indomain-data
+#     weight: 12
+# video_caption_300k:
+#     dataset_parser: llavahound_caption
+#     dataset_name: video_caption_300k
+#     dataset_path: vlm2vec_train/train_video_and_instruction/video_instruction/train/sft/video_caption_300k.jsonl
+#     video_frame_basedir: vlm2vec_train/train_video_and_instruction/train_300k
+#     weight: 5
+#     num_rows: 300_000
+#     num_frames: 8
+#     data_mode: caption_retrieval
+# video_caption_300k-video:
+#     dataset_parser: llavahound_caption
+#     dataset_name: video_caption_300k
+#     dataset_path: vlm2vec_train/train_video_and_instruction/video_instruction/train/sft/video_caption_300k.jsonl
+#     video_frame_basedir: vlm2vec_train/train_video_and_instruction/train_300k
+#     weight: 5
+#     num_rows: 300_000
+#     num_frames: 8
+#     data_mode: video_retrieval
+# video_qa_240k:
+#     dataset_parser: llavahound_qa
+#     dataset_name: video_qa_240k
+#     dataset_path: vlm2vec_train/train_video_and_instruction/video_instruction/train/sft/video_240k_caption_15k.jsonl
+#     video_frame_basedir: vlm2vec_train/train_video_and_instruction/train_300k
+#     weight: 5
+#     num_rows: 240_000
+#     num_frames: 8
+ImageNet_1K:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: ImageNet_1K
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+N24News:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: N24News
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 50000
+    weight: 1
+HatefulMemes:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: HatefulMemes
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 0.5
+VOC2007:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VOC2007
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 0.5
+SUN397:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: SUN397
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 0.5
+OK-VQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: OK-VQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 0.5
+A-OKVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: A-OKVQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 0.5
+DocVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: DocVQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 40000
+    weight: 1
+InfographicsVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: InfographicsVQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 25000
+    weight: 0.5
+ChartQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: ChartQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 28000
+    weight: 0.5
+Visual7W:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: Visual7W
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 70000
+    weight: 1
+VisDial:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisDial
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 130000
+    weight: 1
+CIRR:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: CIRR
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 30000
+    weight: 0.5
+VisualNews_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_t2i
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+VisualNews_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_i2t
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_t2i
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_i2t
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 120000
+    weight: 1
+NIGHTS:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: NIGHTS
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 0.5
+WebQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: WebQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 0.5
+MSCOCO:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO
+    dataset_split: original
+    image_dir: /home/v-menggao/code/data/codenew/code/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+colpali_train_set:
+    dataset_parser: vidore
+    dataset_name: vidore/colpali_train_set
+    weight: 10
+visrag-indomain:
+    dataset_parser: visrag
+    dataset_name: openbmb/VisRAG-Ret-Train-In-domain-data
+    global_dataset_name: VisRAG-Indomain-data
+    weight: 12
+video_caption_300k:
+    dataset_parser: llavahound_caption
+    dataset_name: video_caption_300k
+    dataset_path: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/video_instruction/train/sft/video_caption_300k.jsonl
+    video_frame_basedir: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/train_300k_extracted
+    weight: 5
+    num_rows: 300_000
+    num_frames: 8
+    data_mode: caption_retrieval
+video_caption_300k-video:
+    dataset_parser: llavahound_caption
+    dataset_name: video_caption_300k
+    dataset_path: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/video_instruction/train/sft/video_caption_300k.jsonl
+    video_frame_basedir: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/train_300k_extracted
+    weight: 5
+    num_rows: 300_000
+    num_frames: 8
+    data_mode: video_retrieval
+video_qa_240k:
+    dataset_parser: llavahound_qa
+    dataset_name: video_qa_240k
+    dataset_path: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/video_instruction/train/sft/video_240k_caption_15k.jsonl
+    video_frame_basedir: /home/v-menggao/code/data/codenew/code/data/train_video_and_instruction/train_300k_extracted
+    weight: 5
+    num_rows: 240_000
+    num_frames: 8

experiments/public/train/train_image.yaml ADDED Viewed

	@@ -0,0 +1,161 @@

+# ImageNet_1K:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: ImageNet_1K
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1
+# N24News:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: N24News
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 50000
+#     weight: 1
+# HatefulMemes:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: HatefulMemes
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 1
+# VOC2007:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: VOC2007
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 1
+# SUN397:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: SUN397
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 1
+# OK-VQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: OK-VQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 10000
+#     weight: 1
+# A-OKVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: A-OKVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 20000
+#     weight: 1
+# DocVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: DocVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 40000
+#     weight: 1
+# InfographicsVQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: InfographicsVQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 25000
+#     weight: 1
+# ChartQA:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: ChartQA
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 28000
+#     weight: 1
+# Visual7W:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: Visual7W
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 70000
+#     weight: 1
+VisDial:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisDial
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 130000
+    weight: 1
+CIRR:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: CIRR
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 30000
+    weight: 1
+VisualNews_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_t2i
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+VisualNews_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_i2t
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_t2i
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_i2t
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 120000
+    weight: 1
+NIGHTS:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: NIGHTS
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+WebQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: WebQA
+    dataset_split: original
+    image_dir: /home/v-menggao/code/VLM2Vec/~/data/vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+# MSCOCO:
+#     dataset_parser: mmeb
+#     dataset_name: TIGER-Lab/MMEB-train
+#     subset_name: MSCOCO
+#     dataset_split: original
+#     image_dir: vlm2vec_train/MMEB-train/image
+#     num_sample_per_subset: 100000
+#     weight: 1

experiments/public/train/train_image1.yaml ADDED Viewed

	@@ -0,0 +1,160 @@

+ImageNet_1K:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: ImageNet_1K
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+N24News:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: N24News
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 50000
+    weight: 1
+HatefulMemes:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: HatefulMemes
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 1
+VOC2007:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VOC2007
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 1
+SUN397:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: SUN397
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+OK-VQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: OK-VQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 10000
+    weight: 1
+A-OKVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: A-OKVQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+DocVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: DocVQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 40000
+    weight: 1
+InfographicsVQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: InfographicsVQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 25000
+    weight: 1
+ChartQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: ChartQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 28000
+    weight: 1
+Visual7W:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: Visual7W
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 70000
+    weight: 1
+VisDial:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisDial
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 130000
+    weight: 1
+CIRR:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: CIRR
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 30000
+    weight: 1
+VisualNews_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_t2i
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+VisualNews_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: VisualNews_i2t
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_t2i:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_t2i
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1
+MSCOCO_i2t:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO_i2t
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 120000
+    weight: 1
+NIGHTS:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: NIGHTS
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+WebQA:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: WebQA
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 20000
+    weight: 1
+MSCOCO:
+    dataset_parser: mmeb
+    dataset_name: TIGER-Lab/MMEB-train
+    subset_name: MSCOCO
+    dataset_split: original
+    image_dir: vlm2vec_train/MMEB-train/image
+    num_sample_per_subset: 100000
+    weight: 1

experiments/public/train/train_v2-gp.sh ADDED Viewed

	@@ -0,0 +1,103 @@

+# #!/bin/bash
+# # NOTE: replace ... with actual paths
+# export LD_LIBRARY_PATH=...
+# export PATH=...
+# echo "conda location: $(which conda)"
+# echo "Python location: $(which python)"
+# echo "Python version: $(python --version)"
+# export HF_DATASETS_CACHE=...
+# export HF_HOME=...
+# export WANDB_DISABLED=false
+# export WANDB_PROJECT=...
+# export WANDB_API_KEY=...
+# export HUGGING_FACE_HUB_TOKEN=...
+# export WANDB_PROJECT=...
+# export WANDB_RUN_GROUP=...
+# export EXP_NAME=Qwen2vl_2B.image+visdoc+video.autoresize.lora16.BS1024.IB64.GCq8p8.NormTemp002.lr5e5.step5kwarm100.8H100
+# export WANDB_NAME=$EXP_NAME
+# export EXP_DIR=.../$EXP_NAME
+# export WANDB_DIR=$EXP_DIR
+# echo $EXP_DIR
+# mkdir -p $EXP_DIR/wandb
+# rm -rf $EXP_DIR/wandb/*
+# cd PATH_TO_VLM2VEC_REPO
+# cmd="CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 --master_port=2207 --max_restarts=0 train.py --lora --lora_r 16 --model_name Qwen/Qwen2-VL-2B-Instruct --bf16 --pooling eos --normalize True --temperature 0.02 --dataloader_num_workers 8 --dataset_config experiments/release/train/train_image.yaml --run_name $EXP_NAME --output_dir $EXP_DIR --grad_cache True --per_device_train_batch_size 128 --gc_q_chunk_size 8 --gc_p_chunk_size 8 --interleave_batch_size 64 --lr_scheduler_type linear --learning_rate 5e-5 --max_steps 5000 --warmup_steps 100 --save_steps 50 --logging_steps 1 --save_safetensors True --remove_unused_columns False --resume_from auto --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+# echo $cmd
+# eval $cmd
+#!/bin/bash
+# 1. CUDA 动态库路径
+export LD_LIBRARY_PATH=/usr/local/cuda-12.9/targets/x86_64-linux/lib:/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
+# 2. PATH 添加 conda 环境 bin 路径
+export PATH=/home/v-menggao/miniconda3/envs/VLMtoVec/bin:/home/v-menggao/miniconda3/condabin:$PATH
+# 打印当前环境信息
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+# 3. HuggingFace 缓存路径
+export HF_DATASETS_CACHE=/home/v-menggao/.cache/huggingface/datasets
+export HF_HOME=/home/v-menggao/.cache/huggingface
+# 4. W&B 设置（需要你自己填 project、API key）
+timestamp=$(date +%Y%m%d_%H%M%S)
+export WANDB_DISABLED=false
+export WANDB_PROJECT=vlm2vec_gp_${timestamp}
+export WANDB_API_KEY=4d73ec74bcbb8dfa92520641573bd6ce93ad829a  # 从 https://wandb.ai/settings 获取
+export HUGGING_FACE_HUB_TOKEN=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  # 从 https://huggingface.co/settings/tokens 获取
+export WANDB_RUN_GROUP=baseline_test
+# 5. 实验名字和目录
+export EXP_NAME=Qwen2.5vl_gp_try
+export WANDB_NAME=$EXP_NAME
+export EXP_DIR=/home/v-menggao/code/VLM2Vec/~/experiments_try_gp/$EXP_NAME   # /mnt/data 确保是有空间的磁盘目录
+export WANDB_DIR=$EXP_DIR
+echo $EXP_DIR
+mkdir -p $EXP_DIR/wandb
+rm -rf $EXP_DIR/wandb/*
+# 6. 切换到代码仓库
+cd /home/v-menggao/code/VLM2Vec
+# 7. 组装训练命令  #  --lora --lora_r 16 \
+cmd="CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node=1 --master_port=2207 --max_restarts=0 train_gp.py \
+  --model_name /home/v-menggao/code/VLM2Vec/~/experiments/Qwen2.5vl_3B.all/checkpoint-1500 \
+  --new_modules_dir ashun989/GlimpsePrune_Qwen2.5-VL-3B-Instruct \
+  --gp_do_selection False \
+  --gp_use_chat_processing True \
+  --gp_aux_config /home/v-menggao/code/GlimpsePrune/dataset_configs/gqa_rand.yaml \
+  --bf16 \
+  --pooling eos \
+  --normalize True \
+  --temperature 0.02 \
+  --dataloader_num_workers 8 \
+  --dataset_config /home/v-menggao/code/VLM2Vec/experiments/public/train/train_image.yaml \
+  --run_name $EXP_NAME \
+  --output_dir $EXP_DIR \
+  --grad_cache True \
+  --per_device_train_batch_size 32 \
+  --gc_q_chunk_size 4 --gc_p_chunk_size 4 \
+  --interleave_batch_size 64 \
+  --lr_scheduler_type linear \
+  --learning_rate 5e-5 \
+  --max_steps 1000 --warmup_steps 20 \
+  --save_steps 100 --logging_steps 1 \
+  --save_safetensors True \
+  --remove_unused_columns False \
+  --image_encoder_freeze True \
+  --loc_weight 1.0 --le_weight 1.0 --loc_dice_weight 1.0 --loc_bce_weight 0.1 \
+  --resume_from auto \
+  --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+echo $cmd
+eval $cmd

experiments/public/train/train_v2-qwen2vl-2B_imageonly_add_CRD.sh ADDED Viewed

	@@ -0,0 +1,109 @@

+# #!/bin/bash
+# # NOTE: replace ... with actual paths
+# export LD_LIBRARY_PATH=...
+# export PATH=...
+# echo "conda location: $(which conda)"
+# echo "Python location: $(which python)"
+# echo "Python version: $(python --version)"
+# export HF_DATASETS_CACHE=...
+# export HF_HOME=...
+# export WANDB_DISABLED=false
+# export WANDB_PROJECT=...
+# export WANDB_API_KEY=...
+# export HUGGING_FACE_HUB_TOKEN=...
+# export WANDB_PROJECT=...
+# export WANDB_RUN_GROUP=...
+# export EXP_NAME=Qwen2vl_2B.image+visdoc+video.autoresize.lora16.BS1024.IB64.GCq8p8.NormTemp002.lr5e5.step5kwarm100.8H100
+# export WANDB_NAME=$EXP_NAME
+# export EXP_DIR=.../$EXP_NAME
+# export WANDB_DIR=$EXP_DIR
+# echo $EXP_DIR
+# mkdir -p $EXP_DIR/wandb
+# rm -rf $EXP_DIR/wandb/*
+# cd PATH_TO_VLM2VEC_REPO
+# cmd="CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 --master_port=2207 --max_restarts=0 train.py --lora --lora_r 16 --model_name Qwen/Qwen2-VL-2B-Instruct --bf16 --pooling eos --normalize True --temperature 0.02 --dataloader_num_workers 8 --dataset_config experiments/release/train/train_image.yaml --run_name $EXP_NAME --output_dir $EXP_DIR --grad_cache True --per_device_train_batch_size 128 --gc_q_chunk_size 8 --gc_p_chunk_size 8 --interleave_batch_size 64 --lr_scheduler_type linear --learning_rate 5e-5 --max_steps 5000 --warmup_steps 100 --save_steps 50 --logging_steps 1 --save_safetensors True --remove_unused_columns False --resume_from auto --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+# echo $cmd
+# eval $cmd
+#!/bin/bash
+# 获取脚本所在目录（保证无论从哪里运行都能找到代码路径）
+SCRIPT_DIR=$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)
+CODE_DIR=$(realpath "$SCRIPT_DIR")              # 代码仓库路径
+HOME_DIR=$HOME                                  # 当前用户 HOME 目录
+EXP_ROOT="$CODE_DIR/experiments"                # 实验主目录
+# 1. CUDA 动态库路径
+export LD_LIBRARY_PATH=/usr/local/cuda-12.9/targets/x86_64-linux/lib:/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
+# 2. PATH 添加 conda 环境 bin 路径
+export PATH="$HOME_DIR/miniconda3/envs/VLMtoVec/bin:$HOME_DIR/miniconda3/condabin:$PATH"
+# 打印当前环境信息
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+# 3. HuggingFace 缓存路径
+export HF_DATASETS_CACHE="$HOME_DIR/.cache/huggingface/datasets"
+export HF_HOME="$HOME_DIR/.cache/huggingface"
+# 4. W&B 设置（需要你自己填 project、API key）
+export WANDB_DISABLED=false
+export WANDB_PROJECT=vlm2vec_layer_prune
+export WANDB_API_KEY=4d73ec74bcbb8dfa92520641573bd6ce93ad829a  # 从 https://wandb.ai/settings 获取
+export HUGGING_FACE_HUB_TOKEN=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  # 从 https://huggingface.co/settings/tokens 获取
+export WANDB_RUN_GROUP=baseline_test
+# 5. 实验名字和目录
+export EXP_NAME=Qwen2vl_2B.add_CRD_try
+export WANDB_NAME=$EXP_NAME
+export EXP_DIR="$EXP_ROOT/$EXP_NAME"
+export WANDB_DIR=$EXP_DIR
+echo "实验目录: $EXP_DIR"
+mkdir -p "$EXP_DIR/wandb"
+rm -rf "$EXP_DIR/wandb/*"
+# 6. 组装训练命令
+cmd="CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node=1 --master_port=2207 --max_restarts=0 train_add_CRD_warmup.py \
+  --lora --lora_r 16 \
+  --model_name VLM2Vec/VLM2Vec-V2.0 \
+  --supervise_layers "20,-1" \
+  --supervise_weights "1,0" \
+  --use_crd true \
+  --crd_weight 0.2 \
+  --crd_temperature 0.07 \
+  --crd_layers 0,1 \
+  --crd_warmup_steps 200 \
+  --crd_detach_teacher true \
+  --crd_debug_every 0 \
+  --bf16 \
+  --pooling eos \
+  --normalize True \
+  --temperature 0.02 \
+  --dataloader_num_workers 8 \
+  --dataset_config experiments/public/train/train_image.yaml \
+  --run_name $EXP_NAME \
+  --output_dir $EXP_DIR \
+  --grad_cache True \
+  --per_device_train_batch_size 128 \
+  --gc_q_chunk_size 1 --gc_p_chunk_size 1 \
+  --interleave_batch_size 64 \
+  --lr_scheduler_type linear \
+  --learning_rate 5e-5 \
+  --max_steps 500 --warmup_steps 10 \
+  --save_steps 100 --logging_steps 1 \
+  --save_safetensors True \
+  --remove_unused_columns False \
+  --resume_from auto \
+  --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+echo $cmd
+eval $cmd

experiments/public/train/train_v2-qwen2vl-2B_imageonly_layer_prune.sh ADDED Viewed

	@@ -0,0 +1,99 @@

+# #!/bin/bash
+# # NOTE: replace ... with actual paths
+# export LD_LIBRARY_PATH=...
+# export PATH=...
+# echo "conda location: $(which conda)"
+# echo "Python location: $(which python)"
+# echo "Python version: $(python --version)"
+# export HF_DATASETS_CACHE=...
+# export HF_HOME=...
+# export WANDB_DISABLED=false
+# export WANDB_PROJECT=...
+# export WANDB_API_KEY=...
+# export HUGGING_FACE_HUB_TOKEN=...
+# export WANDB_PROJECT=...
+# export WANDB_RUN_GROUP=...
+# export EXP_NAME=Qwen2vl_2B.image+visdoc+video.autoresize.lora16.BS1024.IB64.GCq8p8.NormTemp002.lr5e5.step5kwarm100.8H100
+# export WANDB_NAME=$EXP_NAME
+# export EXP_DIR=.../$EXP_NAME
+# export WANDB_DIR=$EXP_DIR
+# echo $EXP_DIR
+# mkdir -p $EXP_DIR/wandb
+# rm -rf $EXP_DIR/wandb/*
+# cd PATH_TO_VLM2VEC_REPO
+# cmd="CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 --master_port=2207 --max_restarts=0 train.py --lora --lora_r 16 --model_name Qwen/Qwen2-VL-2B-Instruct --bf16 --pooling eos --normalize True --temperature 0.02 --dataloader_num_workers 8 --dataset_config experiments/release/train/train_image.yaml --run_name $EXP_NAME --output_dir $EXP_DIR --grad_cache True --per_device_train_batch_size 128 --gc_q_chunk_size 8 --gc_p_chunk_size 8 --interleave_batch_size 64 --lr_scheduler_type linear --learning_rate 5e-5 --max_steps 5000 --warmup_steps 100 --save_steps 50 --logging_steps 1 --save_safetensors True --remove_unused_columns False --resume_from auto --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+# echo $cmd
+# eval $cmd
+#!/bin/bash
+# 1. CUDA 动态库路径
+export LD_LIBRARY_PATH=/usr/local/cuda-12.9/targets/x86_64-linux/lib:/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH
+# 2. PATH 添加 conda 环境 bin 路径
+export PATH=/home/v-menggao/miniconda3/envs/VLMtoVec/bin:/home/v-menggao/miniconda3/condabin:$PATH
+# 打印当前环境信息
+echo "conda location: $(which conda)"
+echo "Python location: $(which python)"
+echo "Python version: $(python --version)"
+# 3. HuggingFace 缓存路径
+export HF_DATASETS_CACHE=/home/v-menggao/.cache/huggingface/datasets
+export HF_HOME=/home/v-menggao/.cache/huggingface
+# 4. W&B 设置（需要你自己填 project、API key）
+export WANDB_DISABLED=false
+export WANDB_PROJECT=vlm2vec_layer_prune
+export WANDB_API_KEY=4d73ec74bcbb8dfa92520641573bd6ce93ad829a  # 从 https://wandb.ai/settings 获取
+export HUGGING_FACE_HUB_TOKEN=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  # 从 https://huggingface.co/settings/tokens 获取
+export WANDB_RUN_GROUP=baseline_test
+# 5. 实验名字和目录
+export EXP_NAME=Qwen2vl_2B.image_qry_16_none+cand_16_none_0.1_try
+export WANDB_NAME=$EXP_NAME
+export EXP_DIR=/home/v-menggao/code/VLM2Vec/~/experiments/$EXP_NAME   # /mnt/data 确保是有空间的磁盘目录
+export WANDB_DIR=$EXP_DIR
+echo $EXP_DIR
+mkdir -p $EXP_DIR/wandb
+rm -rf $EXP_DIR/wandb/*
+# 6. 切换到代码仓库
+cd /home/v-menggao/code/VLM2Vec
+# 7. 组装训练命令
+cmd="CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node=1 --master_port=2207 --max_restarts=0 train_layer_prune.py \
+  --lora --lora_r 16 \
+  --model_name VLM2Vec/VLM2Vec-V2.0 \
+  --dual_layer_idx 16 \
+  --dual_alpha 0.1 \
+  --bf16 \
+  --pooling eos \
+  --normalize True \
+  --temperature 0.02 \
+  --dataloader_num_workers 8 \
+  --dataset_config /home/v-menggao/code/VLM2Vec/experiments/public/train/train_image.yaml \
+  --run_name $EXP_NAME \
+  --output_dir $EXP_DIR \
+  --grad_cache True \
+  --per_device_train_batch_size 128 \
+  --gc_q_chunk_size 8 --gc_p_chunk_size 8 \
+  --interleave_batch_size 64 \
+  --lr_scheduler_type linear \
+  --learning_rate 7e-5 \
+  --max_steps 500 --warmup_steps 10 \
+  --save_steps 100 --logging_steps 1 \
+  --save_safetensors True \
+  --remove_unused_columns False \
+  --resume_from auto \
+  --report_to wandb 2>&1 | tee $EXP_DIR/train.log"
+echo $cmd
+eval $cmd