Skalierbare KI/ML-Infrastrukturen
NVIDIA-GPUs in Container-Systemen – Expertenwissen zur Evaluierung, Automatisierung und für die Praxis
von Oliver LiebelWie Sie abseits der Hypes resiliente, hochautomatisierte und autoskalierbare Systeme für Produktiv-Workloads aufbauen, zeigt Ihnen Oliver Liebel in diesem Wegweiser. Sie erfahren, wie Sie NVIDIAs Datacenter-GPUs nahtlos in Hypervisoren und moderne Container-Infrastrukturen integrieren, sie Operator-gestützt mit Kubernetes bzw. OpenShift verwalten und daraus praxistaugliche Setups machen.Betrachtet wird der ganze Infrastruktur-Stack: Von On-Premises-Installationen auf vSphere oder Cloud-Setups auf GCP und AWS über Plattform-Automation per IaaS/IaC sowie den GPU- und Network-Operatoren bis hin zu einem Ausblick auf AI End-to-End-Tool-Stacks.
Aus dem Inhalt:
KI/ML: Grundlagen und Use Cases
Infrastruktur planen: On-Premises, Cloud oder Hybrid?
Technischer Background: KI/ML mit NVIDIA-GPUs
GPU-Modi: Passthrough-MIG vs. MIG-backed vGPU vs. vGPU
NVIDIA-GPUs auf vSphere On-Prem implementieren
NVIDIA AI Enterprise
KI/ML-Cluster mit Kubernetes und OpenShift
GPU-spezifische Operatoren
GPU-Cluster mit OpenShift
Von CI/CD über GitOps zu MLOps
ML-Pipelines & AI End-to-End