Codeseys
/

composer-replication-framework

Reinforcement Learning

Model card Files Files and versions

composer-replication-framework / composer_replication /trainer

149 kB

Ctrl+K

Ctrl+K

4 contributors

History: 13 commits

Baladithya Balamurugan

Wave 20: Tier-0 fidelity fixes — k1-in-reward KL + Composer-2 behavior rewards

41289bf about 2 hours ago

tests
Wave 20: Tier-0 fidelity fixes — k1-in-reward KL + Composer-2 behavior rewards about 2 hours ago
__init__.py

517 Bytes
Wave 1: fix 8 failing tests + unblock Docker E2E + dep/doc debt about 13 hours ago
composer_trainer.py

44.2 kB
Wave 20: Tier-0 fidelity fixes — k1-in-reward KL + Composer-2 behavior rewards about 2 hours ago
data_collator.py

37.1 kB
feat(wave-a): close ADR-011 (SDPO alignment indices) + ADR-012 (review findings) 11 days ago
kl_in_reward.py

7.92 kB
Wave 20: Tier-0 fidelity fixes — k1-in-reward KL + Composer-2 behavior rewards about 2 hours ago