errm / docs /NEXT_STEPS.md
yuffish's picture
Add files using upload-large-folder tool
a741a7c verified

下一步工作计划 - Next Steps

最后更新:2025-01-20


优先级说明

  • 🔴 P0 - 紧急:阻塞后续工作的关键任务
  • 🟠 P1 - 重要:核心功能完善
  • 🟡 P2 - 中等:质量提升和优化
  • 🟢 P3 - 低:长期改进

一、数据扩充 (Data Expansion)

🔴 P0: 扩大标注规模

目标:从当前小规模测试扩展到完整数据集

[ ] 1.1 完成 DROID failure 数据的批量标注
    - 当前:已处理 ~100 条
    - 目标:处理 2,500+ 条(按 HuggingFace 数据集采样)
    - 预估时间:5-10 小时 (API 调用)
    - 预估成本:~$50-100 (GPT-4o)

[ ] 1.2 整合仿真数据
    - 处理 fangyu 的 800+ 条仿真数据
    - 对齐格式与真机数据
    - 验证奖励组件的一致性

[ ] 1.3 整合 yangyue 的 Libero 失败数据
    - 位置:/playpen-ssd/dataset/libero_failures/dec_29_2025_v1
    - 需要适配数据格式

🟠 P1: 数据多样性

[ ] 1.4 增加 success 数据
    - 当前主要是 failure 数据
    - 需要正负样本平衡
    - 建议比例:success:failure = 1:2

[ ] 1.5 跨任务类型覆盖
    - 确保主要任务类型都有足够样本
    - 特别关注稀有任务类型

二、标注质量 (Annotation Quality)

🟠 P1: 质量评估

[ ] 2.1 人工标注 golden set
    - 抽样 100-200 条视频
    - 人工标注作为 ground truth
    - 用于评估 GPT 标注准确率

[ ] 2.2 标注一致性检查
    - 同一视频多次标注对比
    - 检测 GPT 输出的稳定性
    - 计算 stage 准确率、reward 相关性

[ ] 2.3 失败案例分析
    - 收集标注明显错误的案例
    - 分析错误模式
    - 改进 prompt 或后处理

🟡 P2: Prompt 优化

[ ] 2.4 任务特定 prompt
    - 不同任务类型使用不同 prompt
    - 例如:pour 任务关注液体流动
    - 例如:open door 任务关注铰链运动

[ ] 2.5 多轮对话标注
    - 让 GPT 先描述视频内容
    - 再基于描述输出结构化标注
    - 提高标注的逻辑一致性

三、模型训练 (Model Training)

🔴 P0: 扩大训练数据

[ ] 3.1 使用完整标注数据重新训练
    - 当前:~100 条训练数据
    - 目标:2000+ 条训练数据
    - 分割:train/val/test = 80/10/10

[ ] 3.2 多 epoch 训练
    - 尝试不同 epoch 数
    - 监控过拟合
    - 保存最佳检查点

🟠 P1: 模型架构改进

[ ] 3.3 尝试不同基座模型
    - 当前:Qwen-VL 系列
    - 尝试:InternVL, LLaVA, CogVLM
    - 对比:推理速度 vs 质量

[ ] 3.4 视频理解模型
    - 当前:单帧/多帧图片
    - 尝试:Video-LLM (视频原生)
    - 对比:连续帧理解能力

[ ] 3.5 奖励头设计
    - 当前:纯文本生成
    - 尝试:添加回归头直接输出 reward
    - 对比:预测精度

🟡 P2: 训练技巧

[ ] 3.6 数据增强
    - 帧采样策略变化
    - 图像增强(brightness, contrast)
    - 随机 crop(模拟不同视角)

[ ] 3.7 课程学习
    - 从简单任务开始
    - 逐步增加任务复杂度
    - 观察收敛速度

四、评估体系 (Evaluation)

🔴 P0: 基础评估指标

[ ] 4.1 Stage 分类准确率
    - 6 类分类问题
    - 计算 accuracy, F1, confusion matrix

[ ] 4.2 Reward 预测误差
    - MAE, RMSE
    - 与仿真 reward 的相关系数
    - 分阶段分析误差

[ ] 4.3 Failure 检测能力
    - precision, recall, F1
    - 特别关注漏报率(假阴性)

🟠 P1: 高级评估

[ ] 4.4 时序一致性
    - stage 是否单调递增(除 failure)
    - reward 是否平滑变化
    - 检测异常跳变

[ ] 4.5 跨数据源泛化
    - 在 A 数据源训练,在 B 数据源测试
    - 分析泛化能力
    - 找出困难数据源

[ ] 4.6 与人类判断对比
    - 使用 golden set 计算与人类的一致性
    - Cohen's Kappa / Krippendorff's Alpha

五、集成应用 (Integration)

🟠 P1: Policy 训练集成

[ ] 5.1 奖励信号接口
    - 定义 API:输入 observation,输出 reward
    - 支持批量推理
    - 优化推理速度

[ ] 5.2 RL 训练验证
    - 在简单环境中使用 reward model
    - 验证 policy 学习效果
    - 对比 ground truth reward

🟡 P2: 部署优化

[ ] 5.3 模型量化
    - INT8/INT4 量化
    - 推理速度测试
    - 精度损失评估

[ ] 5.4 批处理优化
    - 多帧并行推理
    - 动态 batching
    - GPU 利用率优化

六、文档与工具 (Documentation & Tools)

🟡 P2: 可视化工具

[ ] 6.1 标注结果可视化
    - 视频播放 + 实时 reward 曲线
    - stage 时间轴标注
    - 失败点高亮

[ ] 6.2 训练监控面板
    - loss 曲线
    - 验证指标
    - 样本预测对比

🟢 P3: 文档完善

[ ] 6.3 API 文档
    - 各脚本参数说明
    - 输入输出格式
    - 示例代码

[ ] 6.4 训练 cookbook
    - 数据准备步骤
    - 训练参数推荐
    - 常见问题解答

里程碑计划

Phase 1: 数据基础 (2 周)

Week 1:
  - [ ] 完成 2500 条视频标注
  - [ ] 整合仿真数据
  - [ ] 数据质量抽检

Week 2:
  - [ ] 人工标注 golden set
  - [ ] 评估标注准确率
  - [ ] 数据清洗和修正

Phase 2: 模型迭代 (2 周)

Week 3:
  - [ ] 大规模数据训练
  - [ ] 建立评估 pipeline
  - [ ] 基线模型评估

Week 4:
  - [ ] 尝试不同模型架构
  - [ ] 超参数调优
  - [ ] 选定最佳模型

Phase 3: 集成验证 (1 周)

Week 5:
  - [ ] 与 Policy 训练集成
  - [ ] 端到端验证
  - [ ] 性能优化

资源需求

计算资源

任务 GPU 时间估计
GPT 标注 (2500 条) - 10 小时
Qwen VL 标注 (2500 条) 1x A100 20 小时
SFT 训练 1x A100 5-10 小时
评估推理 1x A100 2 小时

API 成本

操作 成本估计
GPT-4o 标注 (2500 视频 × 10 帧) $50-100
重新标注/修正 $20-50

人力需求

任务 人时
人工标注 golden set 10-20 小时
标注质量审核 5-10 小时
错误案例分析 5 小时

风险与缓解

风险 1: 标注质量不稳定

缓解

  • 使用低温度采样 (temperature=0.1)
  • 多次标注取平均
  • 后处理规则检查

风险 2: 跨域泛化差

缓解

  • 多数据源混合训练
  • 数据增强
  • 任务 prompt 多样化

风险 3: 推理速度不足

缓解

  • 模型蒸馏
  • 量化部署
  • 异步批处理

决策记录

日期 决策 原因
2025-11-10 使用特殊 token 格式 更好的结构化输出
2025-11-05 采用滑动窗口标注 捕捉时序动态
2025-10-xx 选择 Qwen-VL 开源 + 性能平衡

联系方式

如有问题,请联系项目负责人。