« Page IA » : différence entre les versions

← Modification précédente

Dernière version du 3 juin 2026 à 15:04

Serveur IA Ollama : Ollama est un outil qui s’appuie sur llama.cpp afin d’en simplifier l’utilisation, au prix d’un léger surcoût en performances et d’un contrôle réduit. Il gère automatiquement le chargement et le déchargement des modèles en mémoire (RAM/VRAM) après une période d’inactivité.
Serveur IA llama.cpp : Moteur d’inférence léger et très performant, optimisé pour une exécution locale avec un contrôle fin des paramètres. Il utilise principalement des modèles au format GGUF, permettant une forte réduction de la consommation de VRAM grâce à la quantization (Q4, Q5, etc.). Particulièrement adapté à un usage personnel ou en homelab, il offre souvent de meilleures performances brutes qu’Ollama, au prix d’une configuration plus technique et moins automatisée. Ne gère pas nativement le chargement/déchargement automatique des modèles, qui restent en mémoire tant que le serveur est actif.
Serveur IA ik_llama.cpp : Fork avancé de llama.cpp orienté performance, avec un accent marqué sur CUDA, le multi-GPU et l’inférence hybride GPU/CPU. Plus technique et expérimental que llama.cpp standard, il vise surtout les utilisateurs qui veulent optimiser finement leur serveur local.
Serveur IA vLLM : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. (Non testé à ce jour dans cet environnement pour cette raison.)

OpenClaw : Assistant personnel IA basé sur une approche agentique
Hermes : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants

Open WebUI : L’interface d’IA auto-hébergée

Model Context Protocol (MCP) servers : services permettant à une IA d’accéder à des outils externes (API, fichiers, web, etc.) de manière standardisée et sécurisée.

@@ Ligne 1 : / Ligne 1 : @@
 * [[Ollama|Serveur IA Ollama]] : Ollama est un outil qui s’appuie sur llama.cpp afin d’en simplifier l’utilisation, au prix d’un léger surcoût en performances et d’un contrôle réduit. Il gère automatiquement le chargement et le déchargement des modèles en mémoire (RAM/VRAM) après une période d’inactivité.
 * [[llama.cpp|Serveur IA llama.cpp]] : Moteur d’inférence léger et très performant, optimisé pour une exécution locale avec un contrôle fin des paramètres. Il utilise principalement des modèles au format GGUF, permettant une forte réduction de la consommation de VRAM grâce à la quantization (Q4, Q5, etc.). Particulièrement adapté à un usage personnel ou en homelab, il offre souvent de meilleures performances brutes qu’Ollama, au prix d’une configuration plus technique et moins automatisée. Ne gère pas nativement le chargement/déchargement automatique des modèles, qui restent en mémoire tant que le serveur est actif.
-{{Méta bandeau
+* [[ik_llama.cpp|Serveur IA ik_llama.cpp]] : Fork avancé de llama.cpp orienté performance, avec un accent marqué sur CUDA, le multi-GPU et l’inférence hybride GPU/CPU. Plus technique et expérimental que llama.cpp standard, il vise surtout les utilisateurs qui veulent optimiser finement leur serveur local.
- | niveau = modéré
- | icône = loupe
- | texte  = Compatibilité limitée avec OpenClaw : nécessite un proxy pour adapter certaines requêtes et désactiver le « thinking » des modèles récents.
-}}
 * [[vLLM|Serveur IA vLLM]] : Moteur d’inférence haute performance orienté serveur, optimisé pour la gestion concurrente et le débit. Les modèles restent chargés en mémoire en permanence, sans déchargement automatique. Il est particulièrement adapté aux API, applications web et services nécessitant de servir plusieurs utilisateurs simultanément. Plus gourmand en VRAM que les solutions basées sur GGUF (llama.cpp / Ollama), notamment en raison de l’utilisation de formats FP16/BF16 ou AWQ/GPTQ. ('''Non testé''' à ce jour dans cet environnement pour cette raison.)
 -----
-* [[OpenClaw|OpenClaw: Assistant personnel IA basé sur une approche agentique]]
+* [[OpenClaw|OpenClaw]] : Assistant personnel IA basé sur une approche agentique
+* [[Hermes|Hermes]] : assistant IA open source orienté serveur, compatible avec des LLM locaux ou distants
+-----
+* [[Open_WebUI|Open WebUI]] : L’interface d’IA auto-hébergée
+-----
+* [[IA_MCP|Model Context Protocol (MCP) servers]] : services permettant à une IA d’accéder à des outils externes (API, fichiers, web, etc.) de manière standardisée et sécurisée.