« Page IA » : différence entre les versions

← Modification précédente Modification suivante →

Version du 23 avril 2026 à 14:28

Serveur IA Ollama : Ollama est un outil qui s’appuie sur llama.cpp afin d’en simplifier l’utilisation, au prix d’un léger surcoût en performances et d’un contrôle réduit. Il gère automatiquement le chargement et le déchargement des modèles en mémoire (RAM/VRAM) après une période d’inactivité.
Serveur IA llama.cpp : Moteur d’inférence léger et très performant, optimisé pour une exécution locale avec un contrôle fin des paramètres. Il utilise principalement des modèles au format GGUF, permettant une forte réduction de la consommation de VRAM grâce à la quantization (Q4, Q5, etc.). Particulièrement adapté à un usage personnel ou en homelab, il offre souvent de meilleures performances brutes qu’Ollama, au prix d’une configuration plus technique et moins automatisée. Ne gère pas nativement le chargement/déchargement automatique des modèles, qui restent en mémoire tant que le serveur est actif.

Compatibilité limitée avec OpenClaw : nécessite un proxy pour adapter certaines requêtes (rôles, outils) et désactiver le « thinking » des modèles récents. L’utilisation d’un backend compatible (vLLM ou Ollama) est recommandée. Compatible avec HomeClaw.

Serveur IA vLLM : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. (Non testé à ce jour dans cet environnement pour cette raison.)

OpenClaw : Assistant personnel IA basé sur une approche agentique
Hermes : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants

@@ Ligne 8 : / Ligne 8 : @@
 * [[vLLM|Serveur IA vLLM]] : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. ('''Non testé''' à ce jour dans cet environnement pour cette raison.)
 -----
-* [[OpenClaw|OpenClaw: Assistant personnel IA basé sur une approche agentique]]
+* [[OpenClaw|OpenClaw]] : Assistant personnel IA basé sur une approche agentique
-* [[Hermes|Hermes : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants]]
+* [[Hermes|Hermes]] : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants