PBR Scorer — Qwen2.5-VL QLoRA 打分器

把 Qwen2.5-VL-7B 微调成 PBR 逐通道质量打分器(Q-Align/DeQA 范式)。本仓库是 LoRA adapter,需配基座 Qwen/Qwen2.5-VL-7B-Instruct

模型

  • QLoRA(4-bit NF4 冻结基座 + LoRA on LLM proj + 视觉塔 blocks,~47.6M 可训)。
  • 无自定义头:读 answer 位 6 个数字 token("0"…"5")softmax,期望值 = 分数。
  • 训练:60k 样本,DeQA 软标签(高斯 σ=0.75)CE。
  • 输入:[通道图, 渲染图, base_color] + 每通道评分准则 prompt。

结果(old-test 4917, SRCC)

mean base normal rough metallic
0.792 0.832 0.801 0.902 0.631

1/16 数据暴露追平 DINOv2-0.31B。读出可换温度(T≈0.25)以恢复两端、提升"守护精品"。

用法

from transformers import AutoModelForImageTextToText
from peft import PeftModel
base = AutoModelForImageTextToText.from_pretrained("Qwen/Qwen2.5-VL-7B-Instruct", load_in_4bit=True)
model = PeftModel.from_pretrained(base, "<this-repo>")
# 推理:构造 [channel, render, base_color] + prompt,读 6 数字 token softmax 取期望
# 完整逻辑见代码仓库 vlm_scorer_eval.py

局限

同 DINOv2 卡:聚合 SRCC 受单人标注噪声封顶 ~0.79;metallic 最弱;训练数据私有不分发。

License

继承 Qwen2.5-VL 基座许可;本 adapter 为衍生物,研究用途。

Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Color2333/pbr-scorer-qwen25-vl-lora

Adapter
(283)
this model