VLLM

Prérequis

Un GPU est fortement recommandé, idéalement NVIDIA avec le plus de VRAM possible. Le modèle IA choisi doit tenir entièrement en VRAM, sinon les performances chutent fortement. Voir ce lien pour partager un GPU dans un LXC
Les modèles peuvent fonctionner sur CPU, mais avec des performances extrêmement faibles (non exploitables en pratique).
VRAM recommandée : au minimum la taille du modèle chargé. Contrairement à llama.cpp/Ollama, vLLM utilise généralement des modèles en FP16/BF16 ou en quantization type AWQ/GPTQ, ce qui entraîne une consommation mémoire nettement plus élevée.
- En pratique, prévoir 20 à 50% de marge supplémentaire pour le KV cache et la gestion de requêtes concurrentes est recommandé.
RAM recommandée : au minimum équivalente à la taille du modèle, idéalement 1,5 à 2 fois.
Espace disque à prévoir en fonction du ou des modèles que vous allez utiliser ou tester, Exemples :
- qwen2.5-7b (FP16) ≈ 14–16 Go
- qwen2.5-7b (AWQ) ≈ 8–10 Go
- llama3-70b (FP16) ≈ 140 Go+
Utiliser un SSD/NVMe améliore fortement les temps de chargement.
CPU / vCPU recommandés :
- Avec GPU : 4 à 8 vCPU recommandés (gestion des requêtes et du scheduling).
- Sans GPU : non recommandé, performances très limitées.
Note : Contrairement aux formats GGUF (Q4, Q5, etc.) utilisés par llama.cpp/Ollama, vLLM utilise principalement des modèles issus de l’écosystème PyTorch (FP16/BF16) ou des quantizations spécifiques comme AWQ et GPTQ.

Ces formats offrent de bonnes performances mais nécessitent davantage de VRAM. vLLM maintient également les modèles en mémoire en permanence afin de garantir une latence minimale et de supporter plusieurs requêtes simultanées.