Basculer le menu
Changer de menu des préférences
Basculer le menu personnel
Non connecté(e)
Votre adresse IP sera visible au public si vous faites des modifications.

VLLM

De Le Wiki de Lug

Prérequis

  • Un GPU est fortement recommandé, idéalement NVIDIA avec le plus de VRAM possible. Le modèle IA choisi doit tenir entièrement en VRAM, sinon les performances chutent fortement. Voir ce lien pour partager un GPU dans un LXC
  • Les modèles peuvent fonctionner sur CPU, mais avec des performances extrêmement faibles (non exploitables en pratique).
  • VRAM recommandée : au minimum la taille du modèle chargé. Contrairement à llama.cpp/Ollama, vLLM utilise généralement des modèles en FP16/BF16 ou en quantization type AWQ/GPTQ, ce qui entraîne une consommation mémoire nettement plus élevée.
    • En pratique, prévoir 20 à 50% de marge supplémentaire pour le KV cache et la gestion de requêtes concurrentes est recommandé.
  • RAM recommandée : au minimum équivalente à la taille du modèle, idéalement 1,5 à 2 fois.
  • Espace disque à prévoir en fonction du ou des modèles que vous allez utiliser ou tester, Exemples :
    • qwen2.5-7b (FP16) ≈ 14–16 Go
    • qwen2.5-7b (AWQ) ≈ 8–10 Go
    • llama3-70b (FP16) ≈ 140 Go+
  • Utiliser un SSD/NVMe améliore fortement les temps de chargement.
  • CPU / vCPU recommandés :
    • Avec GPU : 4 à 8 vCPU recommandés (gestion des requêtes et du scheduling).
    • Sans GPU : non recommandé, performances très limitées.
  • Note : Contrairement aux formats GGUF (Q4, Q5, etc.) utilisés par llama.cpp/Ollama, vLLM utilise principalement des modèles issus de l’écosystème PyTorch (FP16/BF16) ou des quantizations spécifiques comme AWQ et GPTQ.

Ces formats offrent de bonnes performances mais nécessitent davantage de VRAM. vLLM maintient également les modèles en mémoire en permanence afin de garantir une latence minimale et de supporter plusieurs requêtes simultanées.