개요

그래픽 처리와 병렬 연산에 특화된 프로세서로, 수천 개의 작은 코어를 통해 동시에 많은 연산을 처리할 수 있습니다. 2024~2026년 AI 붐으로 데이터센터 GPU 시장이 급성장하며, Large Language Models (LLMs) 학습과 추론의 핵심 인프라입니다.

주요 특징

  • 병렬 처리 아키텍처 (수천~수만 코어)
  • 고성능 그래픽 렌더링 능력
  • 딥러닝 및 AI 연산에 최적화 (Tensor Core, Matrix Core)
  • CUDA, ROCm, OpenCL 등의 병렬 컴퓨팅 플랫폼 지원
  • HBM (High Bandwidth Memory)으로 대역폭 극대화

주요 제조사

  • NVIDIA — GeForce(게이밍), RTX(전문가용), 데이터센터(H100/B200/GB300)
  • AMD — Radeon(게이밍), Radeon Pro(전문가용), Instinct(데이터센터)
  • Intel — Arc(게이밍), Gaudi(AI 가속기)

NVIDIA 데이터센터 GPU (AI/HPC)

아키텍처 세대

세대아키텍처출시대표 제품핵심 기술
2017Volta2017V100Tensor Core 최초 도입
2020Ampere2020A100TF32, 구조적 희소성 (2:4)
2022Hopper2022H100, H200Transformer Engine, FP8
2024Blackwell2024B200, GB200, GB3002세대 Transformer Engine, FP4
2026Vera Rubin2026.03 발표R100, Grok3 LPUHBM4, NVLink 6, 삼성 파운드리(Grok3)

현행 주력 — Hopper 세대

사양H100 SXMH200 SXM
CUDA 코어16,89616,896
Tensor 코어528 (4세대)528 (4세대)
GPU 메모리80GB HBM3141GB HBM3e
메모리 대역폭3.35 TB/s4.8 TB/s
FP8 성능3,958 TFLOPS3,958 TFLOPS
FP16 성능1,979 TFLOPS1,979 TFLOPS
TDP700W700W
인터커넥트NVLink 4 (900 GB/s)NVLink 4 (900 GB/s)
가격 (클라우드)$23/hr$34/hr
  • H100: 현재 가장 널리 배포된 AI 학습 GPU
  • H200: H100과 동일 컴퓨팅이지만 메모리 76% 증가 → 대형 모델 추론에 유리
  • DGX H100: 8x H100 SXM 시스템 ($300K+)

최신 — Blackwell 세대

사양B200GB200 (Grace Blackwell)GB300
CUDA 코어18,43218,43218,432
Tensor 코어576 (5세대)576 (5세대)576 (5세대)
GPU 메모리192GB HBM3e192GB HBM3e288GB HBM3e
메모리 대역폭8 TB/s8 TB/s12 TB/s
FP4 성능9,000 TFLOPS9,000 TFLOPS9,000 TFLOPS
FP8 성능4,500 TFLOPS4,500 TFLOPS4,500 TFLOPS
TDP1,000W1,200W (CPU+GPU)1,400W
CPU없음 (별도)Grace (72코어 Arm)Grace (72코어 Arm)
인터커넥트NVLink 5 (1.8 TB/s)NVLink 5NVLink 5
  • B200: H100 대비 학습 4배, 추론 최대 30배 성능
  • GB200: Grace CPU + Blackwell GPU 슈퍼칩 (CPU-GPU 통합)
  • GB300: GB200의 메모리/대역폭 강화, 2025 하반기
  • DGX GB200 NVL72: 72개 GPU 랙 시스템, 720 PFLOPS (FP4)
  • FP4 지원: Blackwell부터 4비트 부동소수점으로 추론 성능 2배

차세대 — Vera Rubin (2026)

  • 아키텍처: Vera Rubin (GPU) + Vera (CPU, Grace 후속)
  • 메모리: HBM4 (대역폭 2배+)
  • 인터커넥트: NVLink 6
  • 2026년 하반기 출시 예상

시스템/플랫폼

시스템구성용도
DGX H1008x H100 SXM, 640GBAI 학습 표준
DGX GB200 NVL7272x Blackwell GPU초대형 모델 학습
HGXOEM용 GPU 보드 (서버 업체 탑재)클라우드/엔터프라이즈
DGX Cloud클라우드 서비스 (AWS/Azure/GCP)온디맨드
DGX SuperPODDGX 수백대 클러스터슈퍼컴퓨터급

NVIDIA 소프트웨어 스택

도구설명
CUDAGPU 범용 컴퓨팅 플랫폼 (사실상 표준)
cuDNN딥러닝 프리미티브 라이브러리
TensorRT / TensorRT-LLM추론 최적화 엔진
NCCL멀티 GPU 통신 라이브러리
NeMoLLM 학습/파인튜닝 프레임워크
Triton Inference Server멀티모델 추론 서빙
RAPIDSGPU 가속 데이터 사이언스
NsightGPU 프로파일링/디버깅

AMD 데이터센터 GPU (Instinct)

현행 라인업

사양MI300XMI325XMI350X (2025)
아키텍처CDNA 3CDNA 3CDNA 4
CU (Compute Unit)304304-
GPU 메모리192GB HBM3256GB HBM3e288GB HBM3e
메모리 대역폭5.3 TB/s6 TB/s-
FP16 성능1,307 TFLOPS1,307 TFLOPS-
FP8 성능2,615 TFLOPS2,615 TFLOPS-
TDP750W750W-
  • MI300X: H100 대비 메모리 2.4배, 대역폭 1.6배 → LLM 추론에서 유리
  • MI325X: MI300X의 메모리 업그레이드 (256GB)
  • MI350X: CDNA 4, 2025 하반기, H200/B200 경쟁 타겟
  • MI400: 2026년 예정 (CDNA “Next”)

AMD 소프트웨어

도구설명
ROCmCUDA 대항 오픈소스 GPU 플랫폼
hipBLAS/hipDNNCUDA 호환 레이어
vLLM (ROCm)LLM 서빙 (AMD 지원)
  • ROCm 생태계는 CUDA 대비 성숙도 부족이 가장 큰 약점
  • PyTorch, JAX 등 주요 프레임워크는 ROCm 공식 지원

Intel AI 가속기 — Gaudi

사양Gaudi 2Gaudi 3
아키텍처커스텀 AI 프로세서커스텀 AI 프로세서
공정7nm5nm
메모리96GB HBM2e128GB HBM2e
BF16 성능865 TFLOPS1,835 TFLOPS
FP8 성능1,730 TFLOPS3,670 TFLOPS
네트워크24x 100GbE RoCE24x 200GbE RoCE
  • Gaudi 3: H100 대비 추론 50% 빠르고 40% 저렴 (Intel 주장)
  • AWS에서 dl2qa 인스턴스로 제공 (Gaudi 2)
  • 소프트웨어: Intel Gaudi SDK, PyTorch 네이티브 지원
  • Intel의 AI 가속기 전략: Gaudi + Falcon Shores (차세대, GPU+AI 통합)

게이밍/소비자 GPU (AI 개발 겸용)

NVIDIA GeForce RTX

GPU아키텍처VRAMFP16 성능AI 활용
RTX 4090Ada Lovelace24GB GDDR6X330 TFLOPS로컬 LLM (7B~13B), 파인튜닝
RTX 4080Ada Lovelace16GB200 TFLOPS로컬 LLM (7B)
RTX 5090Blackwell32GB GDDR7~400 TFLOPS로컬 LLM (13B+), DLSS 4
RTX 5080Blackwell16GB GDDR7~250 TFLOPS로컬 LLM (7B)
RTX 5070 TiBlackwell16GB GDDR7-가성비 AI 개발
  • RTX 5090: 소비자 GPU 최초 32GB VRAM → 로컬 LLM 실행에 큰 이점
  • AI 개발자에게 VRAM 용량이 가장 중요 (모델 크기 결정)
  • 로컬 LLM 추론: RTX 4090/5090에서 Llama 3 8B ~40 tok/s 가능

AMD Radeon RX (게이밍/소비자용)

아키텍처세대특징 및 AI 활용
RDNA 3RX 7000 시리즈AI 가속기 최초 탑재, 로컬 AI 추론
AMD RDNA 5차세대FMA 도입으로 듀얼 이슈 VALU 완전 활용, FP32 성능 최대 2배 향상 예상
  • RDNA 5: 하드웨어가 효율적으로 일할 수 있도록(Working smarter) 돕는 FMA 명령어가 도입되어 래스터화 성능 및 FSR Diamond(AI 업스케일링) 성능을 획기적으로 개선할 것으로 전망됨.

AI GPU 선택 가이드

용도추천이유
LLM 학습 (대형)H100/B200 클러스터표준, 생태계 최고
LLM 학습 (가성비)MI300X메모리 크고 H100 대비 저렴
LLM 추론 (대량)B200 / AI Inference Accelerator최고 throughput
로컬 AI 개발RTX 4090 / RTX 509024~32GB VRAM
엣지 AINVIDIA Jetson저전력 임베디드
클라우드 가성비Gaudi 3 / Trainium2H100 대비 30~40% 저렴

모니터링 툴

  • NVIDIA System Monitor - NVIDIA GPU 상태 모니터링
  • GPU-Z - 그래픽 카드 정보 및 센서 모니터링
  • MSI Afterburner - 오버클럭 및 성능 모니터링
  • HWiNFO - 하드웨어 정보 및 모니터링
  • AIDA64 - 시스템 진단 및 벤치마크
  • NVIDIA-SMI - 커맨드 라인 기반 NVIDIA GPU 모니터링
  • AMD Radeon Software - AMD GPU 모니터링 및 설정
  • TechPowerUp GPU-Z - 그래픽 카드 세부 정보 확인

GPU 모니터링 명령어

NVIDIA GPU 모니터링

  • nvidia-smi - NVIDIA System Management Interface
    • GPU 사용률, 메모리 사용량, 온도 등 실시간 모니터링
    • nvidia-smi 명령어로 현재 상태 확인
    • nvidia-smi -l [초] 명령어로 지정된 초마다 갱신
    • nvidia-smi --query-gpu=name,temperature.gpu,utilization.gpu,utilization.memory --format=csv 특정 정보만 CSV 형식으로 출력
    • nvidia-smi -q 상세 정보 확인

AMD GPU 모니터링

  • rocm-smi - ROCm System Management Interface
    • AMD GPU 상태 모니터링을 위한 명령줄 도구
    • rocm-smi 명령어로 기본 정보 확인
    • rocm-smi --showuse GPU 사용률 확인
    • rocm-smi --showmeminfo 메모리 정보 확인
    • rocm-smi --showtemp 온도 정보 확인
    • rocm-smi -a 모든 정보 표시

관련 항목