下一步工作计划 - Next Steps
最后更新:2025-01-20
优先级说明
- 🔴 P0 - 紧急:阻塞后续工作的关键任务
- 🟠 P1 - 重要:核心功能完善
- 🟡 P2 - 中等:质量提升和优化
- 🟢 P3 - 低:长期改进
一、数据扩充 (Data Expansion)
🔴 P0: 扩大标注规模
目标:从当前小规模测试扩展到完整数据集
[ ] 1.1 完成 DROID failure 数据的批量标注
- 当前:已处理 ~100 条
- 目标:处理 2,500+ 条(按 HuggingFace 数据集采样)
- 预估时间:5-10 小时 (API 调用)
- 预估成本:~$50-100 (GPT-4o)
[ ] 1.2 整合仿真数据
- 处理 fangyu 的 800+ 条仿真数据
- 对齐格式与真机数据
- 验证奖励组件的一致性
[ ] 1.3 整合 yangyue 的 Libero 失败数据
- 位置:/playpen-ssd/dataset/libero_failures/dec_29_2025_v1
- 需要适配数据格式
🟠 P1: 数据多样性
[ ] 1.4 增加 success 数据
- 当前主要是 failure 数据
- 需要正负样本平衡
- 建议比例:success:failure = 1:2
[ ] 1.5 跨任务类型覆盖
- 确保主要任务类型都有足够样本
- 特别关注稀有任务类型
二、标注质量 (Annotation Quality)
🟠 P1: 质量评估
[ ] 2.1 人工标注 golden set
- 抽样 100-200 条视频
- 人工标注作为 ground truth
- 用于评估 GPT 标注准确率
[ ] 2.2 标注一致性检查
- 同一视频多次标注对比
- 检测 GPT 输出的稳定性
- 计算 stage 准确率、reward 相关性
[ ] 2.3 失败案例分析
- 收集标注明显错误的案例
- 分析错误模式
- 改进 prompt 或后处理
🟡 P2: Prompt 优化
[ ] 2.4 任务特定 prompt
- 不同任务类型使用不同 prompt
- 例如:pour 任务关注液体流动
- 例如:open door 任务关注铰链运动
[ ] 2.5 多轮对话标注
- 让 GPT 先描述视频内容
- 再基于描述输出结构化标注
- 提高标注的逻辑一致性
三、模型训练 (Model Training)
🔴 P0: 扩大训练数据
[ ] 3.1 使用完整标注数据重新训练
- 当前:~100 条训练数据
- 目标:2000+ 条训练数据
- 分割:train/val/test = 80/10/10
[ ] 3.2 多 epoch 训练
- 尝试不同 epoch 数
- 监控过拟合
- 保存最佳检查点
🟠 P1: 模型架构改进
[ ] 3.3 尝试不同基座模型
- 当前:Qwen-VL 系列
- 尝试:InternVL, LLaVA, CogVLM
- 对比:推理速度 vs 质量
[ ] 3.4 视频理解模型
- 当前:单帧/多帧图片
- 尝试:Video-LLM (视频原生)
- 对比:连续帧理解能力
[ ] 3.5 奖励头设计
- 当前:纯文本生成
- 尝试:添加回归头直接输出 reward
- 对比:预测精度
🟡 P2: 训练技巧
[ ] 3.6 数据增强
- 帧采样策略变化
- 图像增强(brightness, contrast)
- 随机 crop(模拟不同视角)
[ ] 3.7 课程学习
- 从简单任务开始
- 逐步增加任务复杂度
- 观察收敛速度
四、评估体系 (Evaluation)
🔴 P0: 基础评估指标
[ ] 4.1 Stage 分类准确率
- 6 类分类问题
- 计算 accuracy, F1, confusion matrix
[ ] 4.2 Reward 预测误差
- MAE, RMSE
- 与仿真 reward 的相关系数
- 分阶段分析误差
[ ] 4.3 Failure 检测能力
- precision, recall, F1
- 特别关注漏报率(假阴性)
🟠 P1: 高级评估
[ ] 4.4 时序一致性
- stage 是否单调递增(除 failure)
- reward 是否平滑变化
- 检测异常跳变
[ ] 4.5 跨数据源泛化
- 在 A 数据源训练,在 B 数据源测试
- 分析泛化能力
- 找出困难数据源
[ ] 4.6 与人类判断对比
- 使用 golden set 计算与人类的一致性
- Cohen's Kappa / Krippendorff's Alpha
五、集成应用 (Integration)
🟠 P1: Policy 训练集成
[ ] 5.1 奖励信号接口
- 定义 API:输入 observation,输出 reward
- 支持批量推理
- 优化推理速度
[ ] 5.2 RL 训练验证
- 在简单环境中使用 reward model
- 验证 policy 学习效果
- 对比 ground truth reward
🟡 P2: 部署优化
[ ] 5.3 模型量化
- INT8/INT4 量化
- 推理速度测试
- 精度损失评估
[ ] 5.4 批处理优化
- 多帧并行推理
- 动态 batching
- GPU 利用率优化
六、文档与工具 (Documentation & Tools)
🟡 P2: 可视化工具
[ ] 6.1 标注结果可视化
- 视频播放 + 实时 reward 曲线
- stage 时间轴标注
- 失败点高亮
[ ] 6.2 训练监控面板
- loss 曲线
- 验证指标
- 样本预测对比
🟢 P3: 文档完善
[ ] 6.3 API 文档
- 各脚本参数说明
- 输入输出格式
- 示例代码
[ ] 6.4 训练 cookbook
- 数据准备步骤
- 训练参数推荐
- 常见问题解答
里程碑计划
Phase 1: 数据基础 (2 周)
Week 1:
- [ ] 完成 2500 条视频标注
- [ ] 整合仿真数据
- [ ] 数据质量抽检
Week 2:
- [ ] 人工标注 golden set
- [ ] 评估标注准确率
- [ ] 数据清洗和修正
Phase 2: 模型迭代 (2 周)
Week 3:
- [ ] 大规模数据训练
- [ ] 建立评估 pipeline
- [ ] 基线模型评估
Week 4:
- [ ] 尝试不同模型架构
- [ ] 超参数调优
- [ ] 选定最佳模型
Phase 3: 集成验证 (1 周)
Week 5:
- [ ] 与 Policy 训练集成
- [ ] 端到端验证
- [ ] 性能优化
资源需求
计算资源
| 任务 | GPU | 时间估计 |
|---|---|---|
| GPT 标注 (2500 条) | - | 10 小时 |
| Qwen VL 标注 (2500 条) | 1x A100 | 20 小时 |
| SFT 训练 | 1x A100 | 5-10 小时 |
| 评估推理 | 1x A100 | 2 小时 |
API 成本
| 操作 | 成本估计 |
|---|---|
| GPT-4o 标注 (2500 视频 × 10 帧) | $50-100 |
| 重新标注/修正 | $20-50 |
人力需求
| 任务 | 人时 |
|---|---|
| 人工标注 golden set | 10-20 小时 |
| 标注质量审核 | 5-10 小时 |
| 错误案例分析 | 5 小时 |
风险与缓解
风险 1: 标注质量不稳定
缓解:
- 使用低温度采样 (temperature=0.1)
- 多次标注取平均
- 后处理规则检查
风险 2: 跨域泛化差
缓解:
- 多数据源混合训练
- 数据增强
- 任务 prompt 多样化
风险 3: 推理速度不足
缓解:
- 模型蒸馏
- 量化部署
- 异步批处理
决策记录
| 日期 | 决策 | 原因 |
|---|---|---|
| 2025-11-10 | 使用特殊 token 格式 | 更好的结构化输出 |
| 2025-11-05 | 采用滑动窗口标注 | 捕捉时序动态 |
| 2025-10-xx | 选择 Qwen-VL | 开源 + 性能平衡 |
联系方式
如有问题,请联系项目负责人。