개요
GPU 성능을 AI 학습, AI 추론, 게이밍, 전문 작업 관점에서 비교한 페이지입니다. 단순 TFLOPS 수치보다 실제 워크로드 기준 벤치마크에 초점을 맞춥니다.
참고 벤치마크 사이트:
데이터센터 GPU — AI 학습 성능
스펙 비교
| GPU | 아키텍처 | VRAM | 대역폭 | FP16 | FP8 | FP4 | TDP | NVLink |
|---|
| V100 | Volta | 32GB HBM2 | 900 GB/s | 125 TF | - | - | 300W | 300 GB/s |
| A100 SXM | Ampere | 80GB HBM2e | 2.0 TB/s | 312 TF | - | - | 400W | 600 GB/s |
| H100 SXM | Hopper | 80GB HBM3 | 3.35 TB/s | 1,979 TF | 3,958 TF | - | 700W | 900 GB/s |
| H200 SXM | Hopper | 141GB HBM3e | 4.8 TB/s | 1,979 TF | 3,958 TF | - | 700W | 900 GB/s |
| B200 | Blackwell | 192GB HBM3e | 8.0 TB/s | 4,500 TF | 4,500 TF | 9,000 TF | 1,000W | 1,800 GB/s |
| GB300 | Blackwell | 288GB HBM3e | 12.0 TB/s | 4,500 TF | 4,500 TF | 9,000 TF | 1,400W | 1,800 GB/s |
| MI300X | CDNA 3 | 192GB HBM3 | 5.3 TB/s | 1,307 TF | 2,615 TF | - | 750W | - |
| MI325X | CDNA 3 | 256GB HBM3e | 6.0 TB/s | 1,307 TF | 2,615 TF | - | 750W | - |
| Gaudi 3 | Intel | 128GB HBM2e | 3.7 TB/s | - | 3,670 TF | - | 900W | - |
TF = TFLOPS (Tensor/Matrix 연산 기준, 희소성 미포함)
MLPerf 학습 벤치마크 (상대 성능)
V100 = 1.0x 기준
| 워크로드 | V100 | A100 | H100 | H200 | B200 |
|---|
| LLM 학습 (GPT-3급) | 1.0x | ~3x | ~9x | ~9x | ~25x |
| 이미지 분류 (ResNet-50) | 1.0x | ~2.5x | ~6x | ~6x | ~15x |
| 객체 탐지 (RetinaNet) | 1.0x | ~2.5x | ~7x | ~7x | ~18x |
| 추천 시스템 (DLRM) | 1.0x | ~3x | ~8x | ~10x | ~20x |
- B200은 FP4 지원으로 추론에서 더 큰 격차
- H200 vs H100: 컴퓨팅 동일하지만 메모리 증가로 대형 모델에서 5~15% 향상
- 실제 클러스터 성능은 NVLink/InfiniBand 네트워크에 크게 좌우
LLM 학습 시간 추정 (단일 모델)
| 모델 | 파라미터 | 8x H100 | 8x B200 | 8x MI300X |
|---|
| Llama 3 8B | 8B | ~3일 | ~1일 | ~4일 |
| Llama 3 70B | 70B | ~30일 | ~10일 | ~35일 |
| GPT-4급 | ~1T+ | 수천 GPU 필요 | 수천 GPU 필요 | - |
데이터 양, 학습 설정에 따라 크게 변동. 대략적 추정치.
데이터센터 GPU — AI 추론 성능
LLM 추론 throughput (토큰/초, Llama 2 70B 기준)
| GPU | 단일 GPU | 비고 |
|---|
| A100 80GB | ~30 tok/s | 기준선 |
| H100 SXM | ~100 tok/s | A100 대비 3x+ |
| H200 SXM | ~130 tok/s | 메모리 여유로 배치 크기 증가 |
| B200 | ~350 tok/s | FP4로 추론 시 극대화 |
| MI300X | ~110 tok/s | H100과 유사, 메모리에서 유리 |
vLLM / TensorRT-LLM 기준, 배치 크기·양자화에 따라 변동
추론 비용 효율 ($/M 토큰, Llama 70B 기준)
| GPU | 대략 비용 | 비고 |
|---|
| A100 | ~$1.50 | 레거시 |
| H100 | ~$0.60 | 현재 표준 |
| H200 | ~$0.45 | 메모리 이점 |
| B200 | ~$0.25 | FP4 최적화 |
| MI300X | ~$0.50 | H100 대비 저렴 |
| Gaudi 3 | ~$0.40 | 가격 경쟁력 |
클라우드 인스턴스 가격 기반 추정. 전용 칩은 AI Inference Accelerator 참조.
TTFT (Time To First Token) — 지연 시간
소비자 GPU — AI 개발 성능
로컬 LLM 추론 (llama.cpp, Ollama 기준)
| GPU | VRAM | Llama 3 8B (Q4) | Llama 3 70B (Q4) | 비고 |
|---|
| RTX 3060 12GB | 12GB | ~20 tok/s | 불가 (VRAM 부족) | 입문용 |
| RTX 3090 | 24GB | ~35 tok/s | ~5 tok/s (오프로드) | 중고 가성비 |
| RTX 4060 Ti 16GB | 16GB | ~25 tok/s | 불가 | |
| RTX 4070 Ti Super | 16GB | ~30 tok/s | 불가 | |
| RTX 4090 | 24GB | ~45 tok/s | ~8 tok/s (오프로드) | 현 최강 가성비 |
| RTX 5080 | 16GB | ~35 tok/s | 불가 | GDDR7 |
| RTX 5090 | 32GB | ~55 tok/s | ~12 tok/s (오프로드) | 32GB VRAM |
| Mac M4 Max | 128GB 통합 | ~30 tok/s | ~20 tok/s | 통합 메모리 이점 |
| Mac M4 Ultra | 192GB 통합 | ~40 tok/s | ~25 tok/s | 대형 모델 로컬 최강 |
Q4 = 4bit 양자화 (Model Quantization). 오프로드 = GPU+CPU 메모리 분할 로딩.
VRAM별 실행 가능 모델
| VRAM | 실행 가능 모델 (Q4 양자화) |
|---|
| 8GB | 7B 이하 (Llama 3 8B 빠듯) |
| 12GB | 7B~8B 여유, 13B 빠듯 |
| 16GB | 13B 여유, 30B 빠듯 |
| 24GB | 30B 여유, 70B 오프로드 |
| 32GB | 70B (Q4) 단독 가능 |
| 48GB (2x 24GB) | 70B 여유 |
| 128GB+ (Mac 통합) | 70B FP16 가능 |
파인튜닝 성능 (LoRA, Llama 3 8B)
| GPU | VRAM | LoRA 학습 속도 | QLoRA 가능 |
|---|
| RTX 3090 | 24GB | ~1.0x | O |
| RTX 4090 | 24GB | ~1.8x | O |
| RTX 5090 | 32GB | ~2.2x | O |
| A100 80GB | 80GB | ~2.5x | O (풀 파인튜닝도 가능) |
| Mac M4 Max | 128GB | ~0.8x (MPS) | O |
QLoRA: 4bit 양자화 + LoRA로 VRAM 사용량 대폭 절감
게이밍 GPU 성능 비교
NVIDIA GeForce (래스터 + RT)
RTX 4090 = 100% 기준 (4K 게이밍)
| GPU | 4K 상대 성능 | VRAM | 출시가 (USD) | 성능/$ |
|---|
| RTX 3060 12GB | ~30% | 12GB | $329 | 중 |
| RTX 3070 | ~42% | 8GB | $499 | 중 |
| RTX 3080 | ~52% | 10GB | $699 | 중 |
| RTX 3090 | ~60% | 24GB | $1,499 | 낮음 |
| RTX 4060 Ti | ~35% | 8/16GB | $399 | 중 |
| RTX 4070 | ~45% | 12GB | $599 | 중상 |
| RTX 4070 Ti Super | ~58% | 16GB | $799 | 중상 |
| RTX 4080 Super | ~78% | 16GB | $999 | 중상 |
| RTX 4090 | 100% | 24GB | $1,599 | 높음 |
| RTX 5070 | ~70% | 12GB | $549 | 높음 |
| RTX 5070 Ti | ~80% | 16GB | $749 | 높음 |
| RTX 5080 | ~95% | 16GB | $999 | 높음 |
| RTX 5090 | ~140% | 32GB | $1,999 | 중상 |
- RTX 50 시리즈: DLSS 4 (멀티 프레임 생성)으로 체감 성능 추가 향상
- RTX 5070: RTX 4090급 성능을 $549에 (DLSS 4 포함 시)
AMD Radeon
| GPU | 4K 상대 성능 (vs 4090) | VRAM | 출시가 | 비고 |
|---|
| RX 7800 XT | ~42% | 16GB | $499 | 가성비 |
| RX 7900 XT | ~55% | 20GB | $899 | |
| RX 7900 XTX | ~65% | 24GB | $999 | AMD 최상위 |
| RX 9070 XT | ~60% | 16GB | $549 | RDNA 4, FSR 4 |
- AMD 강점: VRAM 대비 가격 우수, 리눅스 오픈소스 드라이버
- AMD 약점: RT(레이트레이싱) 성능, AI 기능 (DLSS 대항 FSR은 품질 열세)
Intel Arc
| GPU | 1080p 상대 성능 | VRAM | 출시가 | 비고 |
|---|
| Arc B580 | RTX 4060급 | 12GB | $249 | 가성비 최강 |
| Arc A770 | RTX 4060 Ti급 | 16GB | $349 | XeSS 업스케일링 |
- 드라이버 성숙도 개선 중, 가격 대비 성능 우수
- AI 활용 시 oneAPI/SYCL 지원하지만 CUDA 생태계와 호환 안 됨
클라우드 GPU 가격 비교 (2026.03 기준)
주요 클라우드별 시간당 가격 (USD/hr, 온디맨드)
| GPU | AWS | GCP | Azure | Lambda | 비고 |
|---|
| A100 80GB | $3.97 | $3.67 | $3.67 | $1.29 | 레거시 |
| H100 80GB | $8.50 | $8.00 | - | $2.49 | 현재 주력 |
| H200 | - | $10.00 | - | $3.29 | |
| B200 | 미정 | 미정 | 미정 | - | 2025~2026 배포 중 |
| MI300X | - | - | - | $1.99 | AMD, 저렴 |
| Gaudi 2 | $3.47 | - | - | - | dl2qa 인스턴스 |
| L40S | $2.94 | $2.35 | $2.29 | $0.99 | 추론/멀티미디어 |
Lambda Labs, Vast.ai, RunPod 등 GPU 클라우드가 대형 CSP 대비 50~70% 저렴
월간 비용 추정 (24/7 운영)
| GPU | 온디맨드 (월) | 예약 1년 (월) | 스팟/선점 (월) |
|---|
| A100 (AWS) | ~$2,860 | ~$1,800 | ~$1,000 |
| H100 (AWS) | ~$6,120 | ~$3,900 | ~$2,100 |
| H100 (Lambda) | ~$1,793 | - | - |
GPU 세대별 가성비 추이
성능/$ (AI 추론 기준, V100 = 1.0x)
V100 (2017) ████ 1.0x
A100 (2020) ████████████ 3.0x
H100 (2022) ████████████████████ 5.0x
H200 (2024) ████████████████████████ 6.0x
B200 (2024) ████████████████████████████████████ 9.0x
→ 2년마다 약 2배 가성비 향상
→ FP4/FP8 등 저정밀도 연산이 가성비 향상의 핵심 동력
선택 요약
AI 개발자
| 예산 | 추천 | 이유 |
|---|
| ~$300 | RTX 3060 12GB (중고) | 12GB VRAM, 입문 |
| ~$600 | RTX 4070 Ti Super / RTX 5070 | 16GB, 가성비 |
| ~$1,600 | RTX 4090 | 24GB, 현재 최고 가성비 |
| ~$2,000 | RTX 5090 | 32GB, 70B Q4 단독 실행 |
| ~$3,000+ | Mac M4 Max 128GB | 통합 메모리, 대형 모델 |
| 클라우드 | Lambda H100 ($2.49/hr) | 대형 학습/파인튜닝 |
게이머
| 예산 | 추천 | 이유 |
|---|
| ~$250 | Intel Arc B580 | 가성비 최강, 12GB |
| ~$500 | RX 9070 XT / RTX 5070 | 1440p~4K, 가성비 |
| ~$1,000 | RTX 5080 | 4K 고성능 |
| ~$2,000 | RTX 5090 | 4K 최강, 32GB |
관련 항목