개요
그래픽 처리와 병렬 연산에 특화된 프로세서로, 수천 개의 작은 코어를 통해 동시에 많은 연산을 처리할 수 있습니다. 2024~2026년 AI 붐으로 데이터센터 GPU 시장이 급성장하며, Large Language Models (LLMs) 학습과 추론의 핵심 인프라입니다.
주요 특징
병렬 처리 아키텍처 (수천~수만 코어)
고성능 그래픽 렌더링 능력
딥러닝 및 AI 연산에 최적화 (Tensor Core, Matrix Core)
CUDA, ROCm, OpenCL 등의 병렬 컴퓨팅 플랫폼 지원
HBM (High Bandwidth Memory)으로 대역폭 극대화
주요 제조사
NVIDIA — GeForce(게이밍), RTX(전문가용), 데이터센터(H100/B200/GB300)
AMD — Radeon(게이밍), Radeon Pro(전문가용), Instinct(데이터센터)
Intel — Arc(게이밍), Gaudi(AI 가속기)
NVIDIA 데이터센터 GPU (AI/HPC)
아키텍처 세대
세대 아키텍처 출시 대표 제품 핵심 기술 2017 Volta 2017 V100 Tensor Core 최초 도입 2020 Ampere 2020 A100 TF32, 구조적 희소성 (2:4) 2022 Hopper 2022 H100 , H200Transformer Engine, FP8 2024 Blackwell 2024 B200 , GB200, GB300 2세대 Transformer Engine, FP4 2026 Vera Rubin 2026.03 발표 R100, Grok3 LPU HBM4, NVLink 6, 삼성 파운드리(Grok3)
현행 주력 — Hopper 세대
사양 H100 SXM H200 SXM CUDA 코어 16,896 16,896 Tensor 코어 528 (4세대) 528 (4세대) GPU 메모리 80GB HBM3 141GB HBM3e 메모리 대역폭 3.35 TB/s 4.8 TB/s FP8 성능 3,958 TFLOPS 3,958 TFLOPS FP16 성능 1,979 TFLOPS 1,979 TFLOPS TDP 700W 700W 인터커넥트 NVLink 4 (900 GB/s) NVLink 4 (900 GB/s) 가격 (클라우드) $23/hr$34/hr
H100: 현재 가장 널리 배포된 AI 학습 GPU
H200: H100과 동일 컴퓨팅이지만 메모리 76% 증가 → 대형 모델 추론에 유리
DGX H100: 8x H100 SXM 시스템 ($300K+)
최신 — Blackwell 세대
사양 B200 GB200 (Grace Blackwell) GB300 CUDA 코어 18,432 18,432 18,432 Tensor 코어 576 (5세대) 576 (5세대) 576 (5세대) GPU 메모리 192GB HBM3e 192GB HBM3e 288GB HBM3e 메모리 대역폭 8 TB/s 8 TB/s 12 TB/s FP4 성능 9,000 TFLOPS 9,000 TFLOPS 9,000 TFLOPS FP8 성능 4,500 TFLOPS 4,500 TFLOPS 4,500 TFLOPS TDP 1,000W 1,200W (CPU+GPU) 1,400W CPU 없음 (별도) Grace (72코어 Arm) Grace (72코어 Arm) 인터커넥트 NVLink 5 (1.8 TB/s) NVLink 5 NVLink 5
B200 : H100 대비 학습 4배, 추론 최대 30배 성능
GB200 : Grace CPU + Blackwell GPU 슈퍼칩 (CPU-GPU 통합)
GB300 : GB200의 메모리/대역폭 강화, 2025 하반기
DGX GB200 NVL72 : 72개 GPU 랙 시스템, 720 PFLOPS (FP4)
FP4 지원 : Blackwell부터 4비트 부동소수점으로 추론 성능 2배
차세대 — Vera Rubin (2026)
아키텍처: Vera Rubin (GPU) + Vera (CPU, Grace 후속)
메모리: HBM4 (대역폭 2배+)
인터커넥트: NVLink 6
2026년 하반기 출시 예상
시스템/플랫폼
시스템 구성 용도 DGX H100 8x H100 SXM, 640GB AI 학습 표준 DGX GB200 NVL72 72x Blackwell GPU 초대형 모델 학습 HGX OEM용 GPU 보드 (서버 업체 탑재) 클라우드/엔터프라이즈 DGX Cloud 클라우드 서비스 (AWS/Azure/GCP) 온디맨드 DGX SuperPOD DGX 수백대 클러스터 슈퍼컴퓨터급
NVIDIA 소프트웨어 스택
도구 설명 CUDA GPU 범용 컴퓨팅 플랫폼 (사실상 표준) cuDNN 딥러닝 프리미티브 라이브러리 TensorRT / TensorRT-LLM 추론 최적화 엔진 NCCL 멀티 GPU 통신 라이브러리 NeMo LLM 학습/파인튜닝 프레임워크 Triton Inference Server 멀티모델 추론 서빙 RAPIDS GPU 가속 데이터 사이언스 Nsight GPU 프로파일링/디버깅
AMD 데이터센터 GPU (Instinct)
현행 라인업
사양 MI300X MI325X MI350X (2025) 아키텍처 CDNA 3 CDNA 3 CDNA 4 CU (Compute Unit) 304 304 - GPU 메모리 192GB HBM3 256GB HBM3e 288GB HBM3e 메모리 대역폭 5.3 TB/s 6 TB/s - FP16 성능 1,307 TFLOPS 1,307 TFLOPS - FP8 성능 2,615 TFLOPS 2,615 TFLOPS - TDP 750W 750W -
MI300X : H100 대비 메모리 2.4배, 대역폭 1.6배 → LLM 추론에서 유리
MI325X : MI300X의 메모리 업그레이드 (256GB)
MI350X : CDNA 4, 2025 하반기, H200/B200 경쟁 타겟
MI400 : 2026년 예정 (CDNA “Next”)
AMD 소프트웨어
도구 설명 ROCm CUDA 대항 오픈소스 GPU 플랫폼 hipBLAS/hipDNN CUDA 호환 레이어 vLLM (ROCm) LLM 서빙 (AMD 지원)
ROCm 생태계는 CUDA 대비 성숙도 부족이 가장 큰 약점
PyTorch, JAX 등 주요 프레임워크는 ROCm 공식 지원
Intel AI 가속기 — Gaudi
사양 Gaudi 2 Gaudi 3 아키텍처 커스텀 AI 프로세서 커스텀 AI 프로세서 공정 7nm 5nm 메모리 96GB HBM2e 128GB HBM2e BF16 성능 865 TFLOPS 1,835 TFLOPS FP8 성능 1,730 TFLOPS 3,670 TFLOPS 네트워크 24x 100GbE RoCE 24x 200GbE RoCE
Gaudi 3 : H100 대비 추론 50% 빠르고 40% 저렴 (Intel 주장)
AWS에서 dl2qa 인스턴스로 제공 (Gaudi 2)
소프트웨어: Intel Gaudi SDK, PyTorch 네이티브 지원
Intel의 AI 가속기 전략: Gaudi + Falcon Shores (차세대, GPU+AI 통합)
게이밍/소비자 GPU (AI 개발 겸용)
NVIDIA GeForce RTX
GPU 아키텍처 VRAM FP16 성능 AI 활용 RTX 4090 Ada Lovelace 24GB GDDR6X 330 TFLOPS 로컬 LLM (7B~13B), 파인튜닝 RTX 4080 Ada Lovelace 16GB 200 TFLOPS 로컬 LLM (7B) RTX 5090 Blackwell 32GB GDDR7 ~400 TFLOPS 로컬 LLM (13B+), DLSS 4 RTX 5080 Blackwell 16GB GDDR7 ~250 TFLOPS 로컬 LLM (7B) RTX 5070 Ti Blackwell 16GB GDDR7 - 가성비 AI 개발
RTX 5090: 소비자 GPU 최초 32GB VRAM → 로컬 LLM 실행에 큰 이점
AI 개발자에게 VRAM 용량이 가장 중요 (모델 크기 결정)
로컬 LLM 추론: RTX 4090/5090에서 Llama 3 8B ~40 tok/s 가능
AMD Radeon RX (게이밍/소비자용)
아키텍처 세대 특징 및 AI 활용 RDNA 3 RX 7000 시리즈 AI 가속기 최초 탑재, 로컬 AI 추론 AMD RDNA 5 차세대 FMA 도입으로 듀얼 이슈 VALU 완전 활용, FP32 성능 최대 2배 향상 예상
RDNA 5 : 하드웨어가 효율적으로 일할 수 있도록(Working smarter) 돕는 FMA 명령어가 도입되어 래스터화 성능 및 FSR Diamond(AI 업스케일링) 성능을 획기적으로 개선할 것으로 전망됨.
AI GPU 선택 가이드
용도 추천 이유 LLM 학습 (대형) H100/B200 클러스터 표준, 생태계 최고 LLM 학습 (가성비) MI300X 메모리 크고 H100 대비 저렴 LLM 추론 (대량) B200 / AI Inference Accelerator 최고 throughput 로컬 AI 개발 RTX 4090 / RTX 5090 24~32GB VRAM 엣지 AI NVIDIA Jetson 저전력 임베디드 클라우드 가성비 Gaudi 3 / Trainium2 H100 대비 30~40% 저렴
모니터링 툴
NVIDIA System Monitor - NVIDIA GPU 상태 모니터링
GPU-Z - 그래픽 카드 정보 및 센서 모니터링
MSI Afterburner - 오버클럭 및 성능 모니터링
HWiNFO - 하드웨어 정보 및 모니터링
AIDA64 - 시스템 진단 및 벤치마크
NVIDIA-SMI - 커맨드 라인 기반 NVIDIA GPU 모니터링
AMD Radeon Software - AMD GPU 모니터링 및 설정
TechPowerUp GPU-Z - 그래픽 카드 세부 정보 확인
GPU 모니터링 명령어
NVIDIA GPU 모니터링
nvidia-smi - NVIDIA System Management Interface
GPU 사용률, 메모리 사용량, 온도 등 실시간 모니터링
nvidia-smi 명령어로 현재 상태 확인
nvidia-smi -l [초] 명령어로 지정된 초마다 갱신
nvidia-smi --query-gpu=name,temperature.gpu,utilization.gpu,utilization.memory --format=csv 특정 정보만 CSV 형식으로 출력
nvidia-smi -q 상세 정보 확인
AMD GPU 모니터링
rocm-smi - ROCm System Management Interface
AMD GPU 상태 모니터링을 위한 명령줄 도구
rocm-smi 명령어로 기본 정보 확인
rocm-smi --showuse GPU 사용률 확인
rocm-smi --showmeminfo 메모리 정보 확인
rocm-smi --showtemp 온도 정보 확인
rocm-smi -a 모든 정보 표시
관련 항목