Spaces:

visualisable-ai
/

api

Running on CPU Upgrade

gary-boon Claude commited on Oct 31

Commit

7dd568f

1 Parent(s): ed40a9a

Fix model info endpoint for Code Llama compatibility

Fixed AttributeError when accessing model config attributes:
- CodeGen uses: n_layer, n_head, n_embd, n_positions
- Llama/Code Llama uses: num_hidden_layers, num_attention_heads, hidden_size, max_position_embeddings

Changes:
- Use getattr() with fallbacks to handle both config schemas
- Return dynamic model name from manager.model_name instead of hardcoded value
- Handle different activation function and layer norm attribute names

This fixes the 500 Internal Server Error on GPU backend when loading Code Llama 7B.

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

backend/model_service.py +20 -12

backend/model_service.py CHANGED Viewed

@@ -855,30 +855,38 @@ async def model_info(authenticated: bool = Depends(verify_api_key)):
     """Get detailed information about the loaded model"""
     if not manager.model:
         raise HTTPException(status_code=503, detail="Model not loaded")
     config = manager.model.config
     # Calculate total parameters
     total_params = sum(p.numel() for p in manager.model.parameters())
     trainable_params = sum(p.numel() for p in manager.model.parameters() if p.requires_grad)
     return {
-        "name": "Salesforce/codegen-350M-mono",
         "type": config.model_type,
         "totalParams": total_params,
         "trainableParams": trainable_params,
-        "layers": config.n_layer,
-        "heads": config.n_head,
-        "hiddenSize": config.n_embd,
         "vocabSize": config.vocab_size,
-        "maxPositions": config.n_positions,
         "architecture": manager.model.__class__.__name__,
         "device": str(manager.device),
         "dtype": str(next(manager.model.parameters()).dtype),
         "accessible": [
             f"Token probabilities (all {config.vocab_size})",
-            f"Attention weights ({config.n_layer} layers × {config.n_head} heads = {config.n_layer * config.n_head} patterns)",
-            f"Hidden states (all {config.n_layer} layers)",
             "Logits before softmax",
             "Token embeddings",
             "Position embeddings (RoPE)",
@@ -888,8 +896,8 @@ async def model_info(authenticated: bool = Depends(verify_api_key)):
             "Activation functions (GELU)"
         ],
         "config": {
-            "activation_function": config.activation_function,
-            "layer_norm_epsilon": config.layer_norm_epsilon,
             "tie_word_embeddings": config.tie_word_embeddings,
             "rotary_dim": config.rotary_dim if hasattr(config, 'rotary_dim') else None,
             "use_cache": config.use_cache

     """Get detailed information about the loaded model"""
     if not manager.model:
         raise HTTPException(status_code=503, detail="Model not loaded")
     config = manager.model.config
     # Calculate total parameters
     total_params = sum(p.numel() for p in manager.model.parameters())
     trainable_params = sum(p.numel() for p in manager.model.parameters() if p.requires_grad)
+    # Handle different config attribute names across model architectures
+    # CodeGen uses: n_layer, n_head, n_embd, n_positions
+    # Llama/Code Llama uses: num_hidden_layers, num_attention_heads, hidden_size, max_position_embeddings
+    num_layers = getattr(config, 'num_hidden_layers', getattr(config, 'n_layer', 0))
+    num_heads = getattr(config, 'num_attention_heads', getattr(config, 'n_head', 0))
+    hidden_size = getattr(config, 'hidden_size', getattr(config, 'n_embd', 0))
+    max_positions = getattr(config, 'max_position_embeddings', getattr(config, 'n_positions', 0))
     return {
+        "name": manager.model_name,
         "type": config.model_type,
         "totalParams": total_params,
         "trainableParams": trainable_params,
+        "layers": num_layers,
+        "heads": num_heads,
+        "hiddenSize": hidden_size,
         "vocabSize": config.vocab_size,
+        "maxPositions": max_positions,
         "architecture": manager.model.__class__.__name__,
         "device": str(manager.device),
         "dtype": str(next(manager.model.parameters()).dtype),
         "accessible": [
             f"Token probabilities (all {config.vocab_size})",
+            f"Attention weights ({num_layers} layers × {num_heads} heads = {num_layers * num_heads} patterns)",
+            f"Hidden states (all {num_layers} layers)",
             "Logits before softmax",
             "Token embeddings",
             "Position embeddings (RoPE)",
             "Activation functions (GELU)"
         ],
         "config": {
+            "activation_function": getattr(config, 'activation_function', getattr(config, 'hidden_act', 'unknown')),
+            "layer_norm_epsilon": getattr(config, 'layer_norm_epsilon', getattr(config, 'rms_norm_eps', 1e-5)),
             "tie_word_embeddings": config.tie_word_embeddings,
             "rotary_dim": config.rotary_dim if hasattr(config, 'rotary_dim') else None,
             "use_cache": config.use_cache