« Page IA » : différence entre les versions
De Le Wiki de Lug
Autres actions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 8 : | Ligne 8 : | ||
* [[vLLM|Serveur IA vLLM]] : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. ('''Non testé''' à ce jour dans cet environnement pour cette raison.) | * [[vLLM|Serveur IA vLLM]] : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. ('''Non testé''' à ce jour dans cet environnement pour cette raison.) | ||
----- | ----- | ||
* [[OpenClaw|OpenClaw: Assistant personnel IA basé sur une approche agentique | * [[OpenClaw|OpenClaw]] : Assistant personnel IA basé sur une approche agentique | ||
* [[Hermes|Hermes : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants | * [[Hermes|Hermes]] : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants | ||
Version du 23 avril 2026 à 14:28
- Serveur IA Ollama : Ollama est un outil qui s’appuie sur llama.cpp afin d’en simplifier l’utilisation, au prix d’un léger surcoût en performances et d’un contrôle réduit. Il gère automatiquement le chargement et le déchargement des modèles en mémoire (RAM/VRAM) après une période d’inactivité.
- Serveur IA llama.cpp : Moteur d’inférence léger et très performant, optimisé pour une exécution locale avec un contrôle fin des paramètres. Il utilise principalement des modèles au format GGUF, permettant une forte réduction de la consommation de VRAM grâce à la quantization (Q4, Q5, etc.). Particulièrement adapté à un usage personnel ou en homelab, il offre souvent de meilleures performances brutes qu’Ollama, au prix d’une configuration plus technique et moins automatisée. Ne gère pas nativement le chargement/déchargement automatique des modèles, qui restent en mémoire tant que le serveur est actif.
- Serveur IA vLLM : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. (Non testé à ce jour dans cet environnement pour cette raison.)