Spaces

SumJun
/

llm

Runtime error

App Files Files Community

runtime error

Exit code: 1. Reason: rrors. INFO 06-21 10:31:43 [importing.py:81] Triton not installed or not compatible; certain GPU-related functions will not be available. W0621 10:31:44.373000 1 torch/utils/cpp_extension.py:140] No CUDA runtime is found, using CUDA_HOME='/usr/local/cuda' Traceback (most recent call last): File "<frozen runpy>", line 198, in _run_module_as_main File "<frozen runpy>", line 88, in _run_code File "/usr/local/lib/python3.12/dist-packages/vllm/entrypoints/openai/api_server.py", line 701, in <module> parser = make_arg_parser(parser) ^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/vllm/entrypoints/openai/cli_args.py", line 382, in make_arg_parser parser = AsyncEngineArgs.add_cli_args(parser) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/vllm/engine/arg_utils.py", line 2587, in add_cli_args parser = EngineArgs.add_cli_args(parser) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/vllm/engine/arg_utils.py", line 1455, in add_cli_args vllm_kwargs = get_kwargs(VllmConfig) ^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/vllm/engine/arg_utils.py", line 408, in get_kwargs return copy.deepcopy(_compute_kwargs(cls)) ^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/vllm/engine/arg_utils.py", line 309, in _compute_kwargs default = default.default_factory() # type: ignore[call-arg] ^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/dist-packages/pydantic/_internal/_dataclasses.py", line 121, in init s.__pydantic_validator__.validate_python(ArgsKwargs(args, kwargs), self_instance=s) File "/usr/local/lib/python3.12/dist-packages/vllm/config/device.py", line 56, in __post_init__ raise RuntimeError( RuntimeError: Failed to infer device type, please set the environment variable `VLLM_LOGGING_LEVEL=DEBUG` to turn on verbose logging to help debug the issue.

Container logs:

Fetching error logs...