Abstract: Après avoir validé le POC du dernier projet IA, à grands coups de requêtes vers OpenAI, la DSI met le holà, impossible d’envoyer des informations de l’entreprise à un service tiers, on va gérer nos LLMs sur nos propres clusters Kubernetes ! Cela demande par contre d’avoir des GPUs (sic) pour que ce soit performant, accessibles aux applications conteneurisées, mais alors comment ça marche ?! Et puis les GPUs c’est cher, c’est rare, comment les utiliser au mieux sans exploser les budgets ? Je vous propose alors de voir ensemble comment, grâce à l’opérateur “NVIDIA GPU Operator“ on peut accéder à ces fameux GPUs : installation, configuration, interaction avec l’hôte et gestion des modules noyau, mais surtout les contraintes et divers modes de partage de ressources (time-slicing, mig), et d’autres add-ons sympa comme le “node-feature-discovery” pour utiliser au mieux les ressources, le tout en mode pas-à-pas. Après cette session, mes équipes de devs pourront enfin avoir du GPU dans leurs conteneurs
--- # Mon application a besoin de GPU ! ![bg right:35%](assets/question-repondue.png) ## Oui, mais pourquoi ? - Démocratisation de la **GenAI** ✨ - Quand le CPU ne suffit plus 🖥️ - Dev. des outils ~~inutiles & énergivores~~ cools 🤭 - Générer des articles techs ou abstracts CFP 🤭 ## Problématique - Plus de crédits vers OpenAI - Besoin de contrôler les données générées - ➡️ Comment on gère sur nos clusters K8S ?
--- # Mise en situation > L'entreprise "**Massil.IA**" développe des applications ultra tendance. Ce sont pour l'instant des 'POCs' qui font des calls API vers *OpenAI*. La DSI souhaite arrêter l'hémoragie des tokens, maitriser les données générées, et oblige à installer de cartes GPU sur les machines au sein du cluster Kubernetes où sont hébergées les applications. ➡️ Comment on gère sur nos clusters K8S l'accès aux GPUs ? ![bg fill right:33%](assets/gpu-marseille.png)
Compute Unified Device Architecture
On verra plus tard comment tout cela s'installe sur les GAFAMs
- CPU - Memory - GPU ??
Single vs Mixed: 1 ou plusieurs types de GPU par node