当前进展 - Current Progress
最后更新:2025-01-20
已完成模块
1. 数据处理流水线 ✅
| 模块 |
状态 |
说明 |
| DROID 数据加载 |
✅ 完成 |
支持从 TFDS 格式读取 |
| 视频帧提取 |
✅ 完成 |
支持 mirror/flat_hash 模式 |
| Metadata 解析 |
✅ 完成 |
自动提取任务描述 |
| 批量处理 |
✅ 完成 |
支持 START_INDEX + MAX_VIDEOS 范围控制 |
2. GPT 标注系统 ✅
| 功能 |
状态 |
说明 |
| 基础标注 |
✅ 完成 |
api_batch.py |
| 改进版标注 |
✅ 完成 |
api_batch_improved.py - 滑动窗口 + 上下文传递 |
| HuggingFace 集成 |
✅ 完成 |
api_batch_hf_dataset.py |
| 奖励对齐 |
✅ 完成 |
与仿真数据 5 分量对齐 |
3. 本地模型推理 ✅
| 模块 |
状态 |
说明 |
| Qwen VL 推理 |
✅ 完成 |
caption/infer_caption.py |
| 批量 Caption |
✅ 完成 |
caption/infer_caption_batch.py |
| 结果解析 |
✅ 完成 |
JSON 自动提取 |
4. 数据格式转换 ✅
| 格式 |
状态 |
输出位置 |
| SFT JSON |
✅ 完成 |
data/sft_frames_dataset.json |
| SFT (from/value) |
✅ 完成 |
data/sft_frames_dataset_sft.json |
| Special Token 版 |
✅ 完成 |
data/sft_reward_dataset_special_tokens.json |
5. 模型训练 ✅
| 版本 |
状态 |
检查点 |
| v0 基础版 |
✅ 完成 |
weights_reward_sft/v0-*/checkpoint-28 |
| v1 改进版 |
✅ 完成 |
weights_reward_sft/v1-*/checkpoint-7 |
| Special Token v0 |
✅ 完成 |
weights_reward_sft_special_token/v0-* |
| Special Token v1 |
✅ 完成 |
weights_reward_sft_special_token/v1-* |
| Special Token v2 |
✅ 完成 |
weights_reward_sft_special_token/v2-* (full merge) |
6. 数据集管理 ✅
| 功能 |
状态 |
说明 |
| 统计分析 |
✅ 完成 |
data_sta/failure_statistics.json |
| 采样策略 |
✅ 完成 |
balanced/random/proportional |
| HuggingFace 上传 |
✅ 完成 |
data_sta/upload_to_huggingface.py |
数据集统计
DROID Failure 数据
总轨迹数: 15,157
数据源分布:
- AUTOLab: 3,618 (23.9%)
- ILIAD: 1,303 (8.6%)
- IPRL: 1,298 (8.6%)
- PennPAL: 2,494 (16.5%)
- CLVR: 433 (2.9%)
- GuptaLab: 187 (1.2%)
- ...
任务类型分布 (Top 10)
| 任务 |
数量 |
| Move object into or out of container |
2,699 |
| Move object to a new position |
2,494 |
| Open or close hinged object |
1,103 |
| Hang or unhang object |
891 |
| Move lid on or off of container |
637 |
| Open or close slidable objects |
543 |
| Press button |
489 |
| Use cup to pour |
437 |
| Fold, spread out, or clump object |
398 |
| Use cloth to clean |
312 |
仿真数据
cokecan-50/
├── fall/ (10 episodes)
├── collision/ (10 episodes)
├── grasp/ (10 episodes)
├── smooth/ (10 episodes)
└── success/ (10 episodes)
已生成标注
GPT 标注文件
| 文件 |
内容 |
output/labels_batch.jsonl |
基础版标注 |
output/labels_batch_improved.jsonl |
改进版标注 |
output/labels_hf_dataset.jsonl |
HuggingFace 数据集标注 |
Caption 结果
| 文件 |
内容 |
caption/output/caption_results_batch.json |
Qwen VL 批量结果 |
caption/output/caption_results_batc_100.json |
100 条测试 |
当前问题 / 待解决
1. 标注质量
2. 数据规模
3. 模型评估
关键文件索引
核心脚本
api_batch_improved.py # GPT 标注(推荐)
api_batch_hf_dataset.py # HuggingFace 数据集处理
video_process.py # 视频提取
extract_frames_to_images.py # 帧提取
convert_to_sft.py # 格式转换
配置文件
data/system_prompt.txt # 推理时的系统 prompt
data/tokens.txt # 特殊 token 定义
输出数据
output/labels_*.jsonl # 标注结果
data/sft_*.json # 训练数据
droid_processed/*.json # 处理后的 episode
模型权重
weights_reward_sft/*/checkpoint-* # 标准版
weights_reward_sft_special_token/*/ # 特殊 token 版
运行状态
最近运行记录
| 日期 |
操作 |
结果 |
| 2025-11-11 |
Special Token v2 训练 |
checkpoint-70 |
| 2025-11-10 |
改进版 SFT 训练 |
checkpoint-7 |
| 2025-11-05 |
基础版 SFT 训练 |
checkpoint-28 |
环境要求
Python 3.8+
PyTorch 2.0+
transformers
swift (ms-swift)
decord
openai
PIL
tensorflow_datasets