Limites de génération - Qwen-3 8B
Limite théorique maximale
20 000 tokens peuvent être générés en sortie (selon les spécifications Qwen-3 8B).
Limite pratique
La limite pratique dépend de la fenêtre de contexte disponible:
max_tokens_generable = fenêtre_contexte - tokens_entrée - marge_sécurité
Exemples pratiques
| Contexte d'entrée | Fenêtre totale | Max génération | Marge |
|---|---|---|---|
| 2K tokens | 32K | ~30K tokens | ✅ Large |
| 10K tokens | 32K | ~22K tokens | ✅ Bonne |
| 20K tokens | 32K | ~12K tokens | ✅ Suffisant |
| 30K tokens | 32K | ~2K tokens | ⚠️ Limite |
| 50K tokens | 128K (YaRN) | ~78K tokens | ✅ Très large |
Pour notre application
Configuration actuelle
- max_tokens configuré: 1500 tokens
- Typique contexte entrée: ~100-500 tokens (messages conversation)
- Disponible pour génération: ~30K tokens
Pourquoi 1500 tokens est suffisant?
- Questions simples: 800-1000 tokens suffisent
- Analyses complexes: 1500 tokens couvrent raisonnement + réponse
- Messages SWIFT: 1200-1500 tokens pour format complet
- Marge de sécurité: Reste bien en dessous de la limite pratique
Ajuster max_tokens selon les besoins
Questions simples (max_tokens=800)
agent_short = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=800),
)
Analyses complexes (max_tokens=2000)
agent_long = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=2000),
)
Documents très longs (max_tokens=5000)
agent_very_long = Agent(
finance_model,
model_settings=ModelSettings(max_output_tokens=5000),
)
# Nécessite que l'entrée soit < 27K tokens
Recommandations
| Cas d'usage | max_tokens recommandé | Notes |
|---|---|---|
| Questions rapides | 800-1000 | Suffisant pour la plupart |
| Réponses détaillées | 1500-2000 | Inclut raisonnement |
| Messages SWIFT | 1200-1500 | Format structuré |
| Analyses longues | 2000-4000 | Si nécessaire |
| Génération de code/docs | 3000-5000 | Documents complets |
Note: Au-delà de 5000 tokens, vérifiez que votre contexte d'entrée n'est pas trop volumineux.