cagataydev
/

gr00t-wave

+# GR00T Wave - Dual Camera Model
+A state-of-the-art robotics foundation model trained on 300k steps with dual camera input for enhanced spatial understanding and manipulation tasks.
+## Model Overview
+GR00T Wave is a specialized variant of the GR00T (Generalist Robot 00 Technology) model architecture, specifically trained with dual camera configurations to improve visual understanding and robotic manipulation capabilities.
+### Key Features
+- **Dual Camera Input**: Enhanced spatial awareness through dual camera streams
+- **300k Training Steps**: Extensively trained for robust performance
+- **Wave Architecture**: Optimized for dynamic motion and manipulation tasks
+- **Multi-Modal Learning**: Integrates visual and proprioceptive information
+## Model Details
+- **Model Type**: Robotics Foundation Model
+- **Architecture**: GR00T Wave
+- **Training Steps**: 300,000 (with intermediate checkpoint at 150,000)
+- **Data Configuration**: SO101 Wave 300k Dual Camera
+- **Model Size**: ~7.6GB (SafeTensors format)
+- **Input Modalities**: Dual Camera RGB, Proprioception
+- **Output**: Robot Actions/Trajectories
+## Available Checkpoints
+This repository contains two main checkpoints:
+- **checkpoint-150000**: Mid-training checkpoint (150k steps)
+- **checkpoint-300000**: Final trained model (300k steps)
+## Usage
+### Loading the Model
+```python
+from transformers import AutoModel, AutoConfig
+# Load the model
+model = AutoModel.from_pretrained("cagataydev/gr00t-wave", use_auth_token=True)
+config = AutoConfig.from_pretrained("cagataydev/gr00t-wave", use_auth_token=True)
+# The model is ready for inference
+```
+### Model Inference
+```python
+import torch
+# Prepare dual camera inputs
+camera_1_input = torch.randn(1, 3, 224, 224)  # RGB image from camera 1
+camera_2_input = torch.randn(1, 3, 224, 224)  # RGB image from camera 2
+proprioception = torch.randn(1, 64)           # Robot state information
+# Forward pass
+with torch.no_grad():
+    outputs = model(
+        camera_1=camera_1_input,
+        camera_2=camera_2_input,
+        proprioception=proprioception
+    )
+# Extract predicted actions
+predicted_actions = outputs.logits
+```
+## Training Details
+### Dataset
+- **Training Data**: SO101 Wave dataset with dual camera configurations
+- **Data Size**: 300k training episodes
+- **Augmentations**: Standard vision augmentations for robotic data
+### Training Configuration
+- **Steps**: 300,000 total training steps
+- **Data Config**: `so100_dualcam`
+- **Embodiment**: New embodiment configuration
+- **Hardware**: Multi-GPU training setup
+### Performance
+- **Training Duration**: ~35.7 hours for full training
+- **Convergence**: Model successfully converged at 300k steps
+- **Validation**: Comprehensive evaluation pending
+## File Structure
+```
+cagataydev/gr00t-wave/
+├── config.json                          # Model configuration
+├── model.safetensors.index.json        # SafeTensors index
+├── model-00001-of-00002.safetensors    # Model weights (part 1)
+├── model-00002-of-00002.safetensors    # Model weights (part 2)
+├── trainer_state.json                   # Training state information
+├── training_args.bin                    # Training arguments
+├── checkpoint-150000/                   # 150k step checkpoint
+│   ├── model-00001-of-00002.safetensors
+│   ├── model-00002-of-00002.safetensors
+│   ├── optimizer.pt
+│   └── scheduler.pt
+└── checkpoint-300000/                   # 300k step checkpoint (final)
+    ├── model-00001-of-00002.safetensors
+    ├── model-00002-of-00002.safetensors
+    ├── optimizer.pt
+    └── scheduler.pt
+```
+## Requirements
+```
+torch>=1.9.0
+transformers>=4.20.0
+numpy>=1.21.0
+pillow>=8.3.0
+```
+## Installation
+```bash
+pip install torch transformers numpy pillow
+```
+## Evaluation
+The model supports evaluation using the standard GR00T evaluation pipeline:
+```python
+# Example evaluation setup
+from gr00t_eval import evaluate_model
+results = evaluate_model(
+    model_path="cagataydev/gr00t-wave",
+    dataset_path="/path/to/eval/dataset",
+    data_config="so100_dualcam",
+    steps=150,
+    trajectories=5
+)
+```
+## Applications
+This model is designed for:
+- **Robotic Manipulation**: Pick-and-place, assembly tasks
+- **Navigation**: Spatial understanding with dual camera input
+- **Multi-Modal Learning**: Integration of visual and proprioceptive data
+- **Real-time Control**: Low-latency robotic control applications
+## Model Card
+### Intended Use
+- Research and development in robotics
+- Robotic manipulation and navigation tasks
+- Multi-modal learning experiments
+### Limitations
+- Trained on specific embodiment configurations
+- Requires dual camera setup for optimal performance
+- Limited to tasks similar to training distribution
+### Ethical Considerations
+- Model should be used responsibly in robotic applications
+- Consider safety implications in real-world deployments
+- Ensure proper testing before production use
+## Citation
+If you use this model in your research, please cite:
+```bibtex
+@model{gr00t_wave_2024,
+  title={GR00T Wave: Dual Camera Robotics Foundation Model},
+  author={NVIDIA Research Team},
+  year={2024},
+  publisher={HuggingFace},
+  url={https://huggingface.co/cagataydev/gr00t-wave}
+}
+```
+## License
+This model is released under the NVIDIA Research License. Please see the license file for more details.
+## Contact
+For questions and support, please contact the NVIDIA GR00T team.
+---
+**Model Version**: v1.0
+**Last Updated**: January 2025
+**Status**: Production Ready