Spaces:

GAInTech
/

feather-a10g-large-runtime

Runtime error

App Files Files Community

Jackoatmon commited on 6 days ago

Commit

383a8e9

verified ·

1 Parent(s): ebe0fed

Update Feather a10g-large training runtime image

Browse files

Files changed (4) hide show

__pycache__/entrypoint.cpython-312.pyc +0 -0
entrypoint.py +2 -0
overlay/scripts/__pycache__/launch_feather_hf_job.cpython-312.pyc +0 -0
overlay/scripts/launch_feather_hf_job.py +3 -0

__pycache__/entrypoint.cpython-312.pyc CHANGED Viewed

Binary files a/__pycache__/entrypoint.cpython-312.pyc and b/__pycache__/entrypoint.cpython-312.pyc differ

entrypoint.py CHANGED Viewed

@@ -169,6 +169,7 @@ def run_job_mode() -> int:
     os.environ.setdefault('HYDRA_PROFILE_STEPS', '3')
     os.environ.setdefault('HYDRA_MID_VAL_INTERVAL', '100')
     os.environ.setdefault('HYDRA_MUON_COMPILE', '0' if os.environ.get('FEATHER_CLEAN_REBUILD', '0') == '1' else '1')
     os.environ.setdefault('HYDRA_RESUME_CKPT', str(CACHE_ROOT / 'latest.pt'))
     os.environ.setdefault('FEATHER_GPU_PROFILE', 'a10g-large')
     os.environ.setdefault('FEATHER_HF_OWNER', HF_OWNER)
@@ -179,6 +180,7 @@ def run_job_mode() -> int:
     print(f"[job] gpu_profile={os.environ['FEATHER_GPU_PROFILE']} htm_cuda_arch={os.environ['HTM_CUDA_ARCH']} torch_cuda_arch={os.environ['TORCH_CUDA_ARCH_LIST']}", flush=True)
     print(f"[job] profile_steps={os.environ['HYDRA_PROFILE_STEPS']} mid_val_interval={os.environ['HYDRA_MID_VAL_INTERVAL']}", flush=True)
     print(f"[job] clean_rebuild={os.environ.get('FEATHER_CLEAN_REBUILD', '0')} muon_compile={os.environ.get('HYDRA_MUON_COMPILE')}", flush=True)
     # CUDA readiness was kicked at module import via _early_cuda_kick. Keep
     # the wait as a second safety net — no-op if CUDA already ready.

     os.environ.setdefault('HYDRA_PROFILE_STEPS', '3')
     os.environ.setdefault('HYDRA_MID_VAL_INTERVAL', '100')
     os.environ.setdefault('HYDRA_MUON_COMPILE', '0' if os.environ.get('FEATHER_CLEAN_REBUILD', '0') == '1' else '1')
+    os.environ.setdefault('HYDRA_HYENA_LAYERS', ','.join(str(i) for i in range(int(os.environ.get('HYDRA_N_LAYER', '4')))))
     os.environ.setdefault('HYDRA_RESUME_CKPT', str(CACHE_ROOT / 'latest.pt'))
     os.environ.setdefault('FEATHER_GPU_PROFILE', 'a10g-large')
     os.environ.setdefault('FEATHER_HF_OWNER', HF_OWNER)
     print(f"[job] gpu_profile={os.environ['FEATHER_GPU_PROFILE']} htm_cuda_arch={os.environ['HTM_CUDA_ARCH']} torch_cuda_arch={os.environ['TORCH_CUDA_ARCH_LIST']}", flush=True)
     print(f"[job] profile_steps={os.environ['HYDRA_PROFILE_STEPS']} mid_val_interval={os.environ['HYDRA_MID_VAL_INTERVAL']}", flush=True)
     print(f"[job] clean_rebuild={os.environ.get('FEATHER_CLEAN_REBUILD', '0')} muon_compile={os.environ.get('HYDRA_MUON_COMPILE')}", flush=True)
+    print(f"[job] hyena_layers={os.environ.get('HYDRA_HYENA_LAYERS')}", flush=True)
     # CUDA readiness was kicked at module import via _early_cuda_kick. Keep
     # the wait as a second safety net — no-op if CUDA already ready.

overlay/scripts/__pycache__/launch_feather_hf_job.cpython-312.pyc CHANGED Viewed

Binary files a/overlay/scripts/__pycache__/launch_feather_hf_job.cpython-312.pyc and b/overlay/scripts/__pycache__/launch_feather_hf_job.cpython-312.pyc differ

overlay/scripts/launch_feather_hf_job.py CHANGED Viewed

@@ -13,6 +13,7 @@ GPU_FLAVOR = os.environ.get('FEATHER_HF_FLAVOR', 'a10g-large')
 GPU_PROFILE = os.environ.get('FEATHER_GPU_PROFILE', GPU_FLAVOR)
 HF_OWNER = os.environ.get('FEATHER_HF_OWNER', os.environ.get('HF_OWNER', 'GAInTech'))
 JOB_NAMESPACE = os.environ.get('FEATHER_HF_JOB_NAMESPACE', HF_OWNER)
 GPU_ARCH_BY_FLAVOR = {
     'a10g-small': ('sm_86', '8.6'),
     'a10g-large': ('sm_86', '8.6'),
@@ -112,6 +113,7 @@ def main() -> int:
     print(f'[launch] target_shards={TARGET_SHARDS} time_budget={TIME_BUDGET} timeout={TIMEOUT}', flush=True)
     print(f'[launch] profile_steps={PROFILE_STEPS} mid_val_interval={MID_VAL_INTERVAL}', flush=True)
     print(f'[launch] clean_rebuild={FORCE_CLEAN_REBUILD}', flush=True)
     print(f'[launch] flavor={GPU_FLAVOR} profile={GPU_PROFILE} htm_cuda_arch={HTM_CUDA_ARCH} torch_cuda_arch={TORCH_CUDA_ARCH}', flush=True)
     print(f'[launch] image_mode={"space" if USE_SPACE_IMAGE else "ghcr"}', flush=True)
     if not USE_SPACE_IMAGE:
@@ -152,6 +154,7 @@ def main() -> int:
         'HYDRA_MID_VAL_INTERVAL': MID_VAL_INTERVAL,
         'HYDRA_MUON_COMPILE': '0' if FORCE_CLEAN_REBUILD else os.environ.get('HYDRA_MUON_COMPILE', '1'),
         'HYDRA_FORCE_HTM_CPU': os.environ.get('HYDRA_FORCE_HTM_CPU', '1'),
         'PYTHONUNBUFFERED': '1',
         'FEATHER_CLEAN_REBUILD': '1' if FORCE_CLEAN_REBUILD else '0',
         'FEATHER_DISABLE_TRITON_CACHE': '1' if FORCE_CLEAN_REBUILD else os.environ.get('FEATHER_DISABLE_TRITON_CACHE', '0'),

 GPU_PROFILE = os.environ.get('FEATHER_GPU_PROFILE', GPU_FLAVOR)
 HF_OWNER = os.environ.get('FEATHER_HF_OWNER', os.environ.get('HF_OWNER', 'GAInTech'))
 JOB_NAMESPACE = os.environ.get('FEATHER_HF_JOB_NAMESPACE', HF_OWNER)
+DEFAULT_HYENA_LAYERS = ','.join(str(i) for i in range(int(os.environ.get('HYDRA_N_LAYER', '4'))))
 GPU_ARCH_BY_FLAVOR = {
     'a10g-small': ('sm_86', '8.6'),
     'a10g-large': ('sm_86', '8.6'),
     print(f'[launch] target_shards={TARGET_SHARDS} time_budget={TIME_BUDGET} timeout={TIMEOUT}', flush=True)
     print(f'[launch] profile_steps={PROFILE_STEPS} mid_val_interval={MID_VAL_INTERVAL}', flush=True)
     print(f'[launch] clean_rebuild={FORCE_CLEAN_REBUILD}', flush=True)
+    print(f'[launch] hyena_layers={os.environ.get("HYDRA_HYENA_LAYERS", DEFAULT_HYENA_LAYERS)}', flush=True)
     print(f'[launch] flavor={GPU_FLAVOR} profile={GPU_PROFILE} htm_cuda_arch={HTM_CUDA_ARCH} torch_cuda_arch={TORCH_CUDA_ARCH}', flush=True)
     print(f'[launch] image_mode={"space" if USE_SPACE_IMAGE else "ghcr"}', flush=True)
     if not USE_SPACE_IMAGE:
         'HYDRA_MID_VAL_INTERVAL': MID_VAL_INTERVAL,
         'HYDRA_MUON_COMPILE': '0' if FORCE_CLEAN_REBUILD else os.environ.get('HYDRA_MUON_COMPILE', '1'),
         'HYDRA_FORCE_HTM_CPU': os.environ.get('HYDRA_FORCE_HTM_CPU', '1'),
+        'HYDRA_HYENA_LAYERS': os.environ.get('HYDRA_HYENA_LAYERS', DEFAULT_HYENA_LAYERS),
         'PYTHONUNBUFFERED': '1',
         'FEATHER_CLEAN_REBUILD': '1' if FORCE_CLEAN_REBUILD else '0',
         'FEATHER_DISABLE_TRITON_CACHE': '1' if FORCE_CLEAN_REBUILD else os.environ.get('FEATHER_DISABLE_TRITON_CACHE', '0'),