DGX는 NVSwitch, NVLink, 최적화된 cooling, 검증된 firmware, NVIDIA 통합 소프트웨어 지원이 포함된 “AI Appliance” 입니다.
AI 서버는 일반 서버보다 훨씬 많은 전력을 사용합니다.
DGX B300 8GPU → 수천W 이상의 전력을 사용합니다.
이러한 GPU는 온도가 높아지면 클럭 저하(thermal throttling), 성능 감소, 장애 가능성 증가의 우려가 있습니다.
MIG(Multi-Instance GPU)는 하나의 GPU를 여러 개의 작은 GPU처럼 분할해서 사용하는 기술입니다.
다중 작업을 동시에 처리할 때, 여러 팀이 GPU를 공유할 때, GPU 자원을 잘게 나눠 스케줄링할 때 사용됩니다.
장점
1) GPU 활용률 증가
2) 자원 격리
3) 비용 절감
NIM(NVIDIA Inference Microservice)이란 AI 모델을 쉽게 배포할 수 있게 만든 NVIDIA의 추론(Inference)용 컨테이너 서비스 입니다.
특징:
1) TensorRT 최적화
2) API 형태 제공
3) 빠른 배포 가능
핵심:
RTX 필수
권장:
RTX 4090
L40S
RTX 6000 Ada
A6000
비추천:
A2
T4
H200/H100 (RTX 기능 제한)
이 GPU들은 AI/HPC 최적화되어있습니다.
반면 Omniverse는 RTX Renderer Real-time Ray Tracing 중심이라 RT Core가 중요합니다.
1) GPU 종류: Omniverse 적합성
2) RTX 계열 GPU: 매우 좋음
3) Datacenter GPU: 제한적