GPU

개요

그래픽 처리와 병렬 연산에 특화된 프로세서로, 수천 개의 작은 코어를 통해 동시에 많은 연산을 처리할 수 있습니다. 2024~2026년 AI 붐으로 데이터센터 GPU 시장이 급성장하며, Large Language Models (LLMs) 학습과 추론의 핵심 인프라입니다.

주요 특징

병렬 처리 아키텍처 (수천~수만 코어)
고성능 그래픽 렌더링 능력
딥러닝 및 AI 연산에 최적화 (Tensor Core, Matrix Core)
CUDA, ROCm, OpenCL 등의 병렬 컴퓨팅 플랫폼 지원
HBM (High Bandwidth Memory)으로 대역폭 극대화

주요 제조사

NVIDIA — GeForce(게이밍), RTX(전문가용), 데이터센터(H100/B200/GB300)
AMD — Radeon(게이밍), Radeon Pro(전문가용), Instinct(데이터센터)
Intel — Arc(게이밍), Gaudi(AI 가속기)

NVIDIA 데이터센터 GPU (AI/HPC)

아키텍처 세대

세대	아키텍처	출시	대표 제품	핵심 기술
2017	Volta	2017	V100	Tensor Core 최초 도입
2020	Ampere	2020	A100	TF32, 구조적 희소성 (2:4)
2022	Hopper	2022	H100, H200	Transformer Engine, FP8
2024	Blackwell	2024	B200, GB200, GB300	2세대 Transformer Engine, FP4
2026	Vera Rubin	2026.03 발표	R100, Grok3 LPU	HBM4, NVLink 6, 삼성 파운드리(Grok3)

현행 주력 — Hopper 세대

사양	H100 SXM	H200 SXM
CUDA 코어	16,896	16,896
Tensor 코어	528 (4세대)	528 (4세대)
GPU 메모리	80GB HBM3	141GB HBM3e
메모리 대역폭	3.35 TB/s	4.8 TB/s
FP8 성능	3,958 TFLOPS	3,958 TFLOPS
FP16 성능	1,979 TFLOPS	1,979 TFLOPS
TDP	700W	700W
인터커넥트	NVLink 4 (900 GB/s)	NVLink 4 (900 GB/s)
가격 (클라우드)	$23/hr	$34/hr

H100: 현재 가장 널리 배포된 AI 학습 GPU
H200: H100과 동일 컴퓨팅이지만 메모리 76% 증가 → 대형 모델 추론에 유리
DGX H100: 8x H100 SXM 시스템 ($300K+)

최신 — Blackwell 세대

사양	B200	GB200 (Grace Blackwell)	GB300
CUDA 코어	18,432	18,432	18,432
Tensor 코어	576 (5세대)	576 (5세대)	576 (5세대)
GPU 메모리	192GB HBM3e	192GB HBM3e	288GB HBM3e
메모리 대역폭	8 TB/s	8 TB/s	12 TB/s
FP4 성능	9,000 TFLOPS	9,000 TFLOPS	9,000 TFLOPS
FP8 성능	4,500 TFLOPS	4,500 TFLOPS	4,500 TFLOPS
TDP	1,000W	1,200W (CPU+GPU)	1,400W
CPU	없음 (별도)	Grace (72코어 Arm)	Grace (72코어 Arm)
인터커넥트	NVLink 5 (1.8 TB/s)	NVLink 5	NVLink 5

B200: H100 대비 학습 4배, 추론 최대 30배 성능
GB200: Grace CPU + Blackwell GPU 슈퍼칩 (CPU-GPU 통합)
GB300: GB200의 메모리/대역폭 강화, 2025 하반기
DGX GB200 NVL72: 72개 GPU 랙 시스템, 720 PFLOPS (FP4)
FP4 지원: Blackwell부터 4비트 부동소수점으로 추론 성능 2배

차세대 — Vera Rubin (2026)

아키텍처: Vera Rubin (GPU) + Vera (CPU, Grace 후속)
메모리: HBM4 (대역폭 2배+)
인터커넥트: NVLink 6
2026년 하반기 출시 예상

시스템/플랫폼

시스템	구성	용도
DGX H100	8x H100 SXM, 640GB	AI 학습 표준
DGX GB200 NVL72	72x Blackwell GPU	초대형 모델 학습
HGX	OEM용 GPU 보드 (서버 업체 탑재)	클라우드/엔터프라이즈
DGX Cloud	클라우드 서비스 (AWS/Azure/GCP)	온디맨드
DGX SuperPOD	DGX 수백대 클러스터	슈퍼컴퓨터급

NVIDIA 소프트웨어 스택

도구	설명
CUDA	GPU 범용 컴퓨팅 플랫폼 (사실상 표준)
cuDNN	딥러닝 프리미티브 라이브러리
TensorRT / TensorRT-LLM	추론 최적화 엔진
NCCL	멀티 GPU 통신 라이브러리
NeMo	LLM 학습/파인튜닝 프레임워크
Triton Inference Server	멀티모델 추론 서빙
RAPIDS	GPU 가속 데이터 사이언스
Nsight	GPU 프로파일링/디버깅

AMD 데이터센터 GPU (Instinct)

현행 라인업

사양	MI300X	MI325X	MI350X (2025)
아키텍처	CDNA 3	CDNA 3	CDNA 4
CU (Compute Unit)	304	304	-
GPU 메모리	192GB HBM3	256GB HBM3e	288GB HBM3e
메모리 대역폭	5.3 TB/s	6 TB/s	-
FP16 성능	1,307 TFLOPS	1,307 TFLOPS	-
FP8 성능	2,615 TFLOPS	2,615 TFLOPS	-
TDP	750W	750W	-

MI300X: H100 대비 메모리 2.4배, 대역폭 1.6배 → LLM 추론에서 유리
MI325X: MI300X의 메모리 업그레이드 (256GB)
MI350X: CDNA 4, 2025 하반기, H200/B200 경쟁 타겟
MI400: 2026년 예정 (CDNA “Next”)

AMD 소프트웨어

도구	설명
ROCm	CUDA 대항 오픈소스 GPU 플랫폼
hipBLAS/hipDNN	CUDA 호환 레이어
vLLM (ROCm)	LLM 서빙 (AMD 지원)

ROCm 생태계는 CUDA 대비 성숙도 부족이 가장 큰 약점
PyTorch, JAX 등 주요 프레임워크는 ROCm 공식 지원

Intel AI 가속기 — Gaudi

사양	Gaudi 2	Gaudi 3
아키텍처	커스텀 AI 프로세서	커스텀 AI 프로세서
공정	7nm	5nm
메모리	96GB HBM2e	128GB HBM2e
BF16 성능	865 TFLOPS	1,835 TFLOPS
FP8 성능	1,730 TFLOPS	3,670 TFLOPS
네트워크	24x 100GbE RoCE	24x 200GbE RoCE

Gaudi 3: H100 대비 추론 50% 빠르고 40% 저렴 (Intel 주장)
AWS에서 dl2qa 인스턴스로 제공 (Gaudi 2)
소프트웨어: Intel Gaudi SDK, PyTorch 네이티브 지원
Intel의 AI 가속기 전략: Gaudi + Falcon Shores (차세대, GPU+AI 통합)

게이밍/소비자 GPU (AI 개발 겸용)

NVIDIA GeForce RTX

GPU	아키텍처	VRAM	FP16 성능	AI 활용
RTX 4090	Ada Lovelace	24GB GDDR6X	330 TFLOPS	로컬 LLM (7B~13B), 파인튜닝
RTX 4080	Ada Lovelace	16GB	200 TFLOPS	로컬 LLM (7B)
RTX 5090	Blackwell	32GB GDDR7	~400 TFLOPS	로컬 LLM (13B+), DLSS 4
RTX 5080	Blackwell	16GB GDDR7	~250 TFLOPS	로컬 LLM (7B)
RTX 5070 Ti	Blackwell	16GB GDDR7	-	가성비 AI 개발

RTX 5090: 소비자 GPU 최초 32GB VRAM → 로컬 LLM 실행에 큰 이점
AI 개발자에게 VRAM 용량이 가장 중요 (모델 크기 결정)
로컬 LLM 추론: RTX 4090/5090에서 Llama 3 8B ~40 tok/s 가능

AMD Radeon RX (게이밍/소비자용)

아키텍처	세대	특징 및 AI 활용
RDNA 3	RX 7000 시리즈	AI 가속기 최초 탑재, 로컬 AI 추론
AMD RDNA 5	차세대	FMA 도입으로 듀얼 이슈 VALU 완전 활용, FP32 성능 최대 2배 향상 예상

RDNA 5: 하드웨어가 효율적으로 일할 수 있도록(Working smarter) 돕는 FMA 명령어가 도입되어 래스터화 성능 및 FSR Diamond(AI 업스케일링) 성능을 획기적으로 개선할 것으로 전망됨.

AI GPU 선택 가이드

용도	추천	이유
LLM 학습 (대형)	H100/B200 클러스터	표준, 생태계 최고
LLM 학습 (가성비)	MI300X	메모리 크고 H100 대비 저렴
LLM 추론 (대량)	B200 / AI Inference Accelerator	최고 throughput
로컬 AI 개발	RTX 4090 / RTX 5090	24~32GB VRAM
엣지 AI	NVIDIA Jetson	저전력 임베디드
클라우드 가성비	Gaudi 3 / Trainium2	H100 대비 30~40% 저렴

모니터링 툴

NVIDIA System Monitor - NVIDIA GPU 상태 모니터링
GPU-Z - 그래픽 카드 정보 및 센서 모니터링
MSI Afterburner - 오버클럭 및 성능 모니터링
HWiNFO - 하드웨어 정보 및 모니터링
AIDA64 - 시스템 진단 및 벤치마크
NVIDIA-SMI - 커맨드 라인 기반 NVIDIA GPU 모니터링
AMD Radeon Software - AMD GPU 모니터링 및 설정
TechPowerUp GPU-Z - 그래픽 카드 세부 정보 확인

GPU 모니터링 명령어

NVIDIA GPU 모니터링

nvidia-smi - NVIDIA System Management Interface
- GPU 사용률, 메모리 사용량, 온도 등 실시간 모니터링
- nvidia-smi 명령어로 현재 상태 확인
- nvidia-smi -l [초] 명령어로 지정된 초마다 갱신
- nvidia-smi --query-gpu=name,temperature.gpu,utilization.gpu,utilization.memory --format=csv 특정 정보만 CSV 형식으로 출력
- nvidia-smi -q 상세 정보 확인

AMD GPU 모니터링

rocm-smi - ROCm System Management Interface
- AMD GPU 상태 모니터링을 위한 명령줄 도구
- rocm-smi 명령어로 기본 정보 확인
- rocm-smi --showuse GPU 사용률 확인
- rocm-smi --showmeminfo 메모리 정보 확인
- rocm-smi --showtemp 온도 정보 확인
- rocm-smi -a 모든 정보 표시

관련 항목

GPU Benchmark Comparison — GPU 성능 비교 (AI/게이밍/가격)
NVIDIA Jetson — 엣지 AI 플랫폼
AI Inference Accelerator — 추론 특화 칩 (Groq, Cerebras 등)
TensorRT-LLM
Triton Inference Server
Model Quantization
Large Language Models (LLMs)