개요

GPU 성능을 AI 학습, AI 추론, 게이밍, 전문 작업 관점에서 비교한 페이지입니다. 단순 TFLOPS 수치보다 실제 워크로드 기준 벤치마크에 초점을 맞춥니다.

참고 벤치마크 사이트:


데이터센터 GPU — AI 학습 성능

스펙 비교

GPU아키텍처VRAM대역폭FP16FP8FP4TDPNVLink
V100Volta32GB HBM2900 GB/s125 TF--300W300 GB/s
A100 SXMAmpere80GB HBM2e2.0 TB/s312 TF--400W600 GB/s
H100 SXMHopper80GB HBM33.35 TB/s1,979 TF3,958 TF-700W900 GB/s
H200 SXMHopper141GB HBM3e4.8 TB/s1,979 TF3,958 TF-700W900 GB/s
B200Blackwell192GB HBM3e8.0 TB/s4,500 TF4,500 TF9,000 TF1,000W1,800 GB/s
GB300Blackwell288GB HBM3e12.0 TB/s4,500 TF4,500 TF9,000 TF1,400W1,800 GB/s
MI300XCDNA 3192GB HBM35.3 TB/s1,307 TF2,615 TF-750W-
MI325XCDNA 3256GB HBM3e6.0 TB/s1,307 TF2,615 TF-750W-
Gaudi 3Intel128GB HBM2e3.7 TB/s-3,670 TF-900W-

TF = TFLOPS (Tensor/Matrix 연산 기준, 희소성 미포함)

MLPerf 학습 벤치마크 (상대 성능)

V100 = 1.0x 기준

워크로드V100A100H100H200B200
LLM 학습 (GPT-3급)1.0x~3x~9x~9x~25x
이미지 분류 (ResNet-50)1.0x~2.5x~6x~6x~15x
객체 탐지 (RetinaNet)1.0x~2.5x~7x~7x~18x
추천 시스템 (DLRM)1.0x~3x~8x~10x~20x
  • B200은 FP4 지원으로 추론에서 더 큰 격차
  • H200 vs H100: 컴퓨팅 동일하지만 메모리 증가로 대형 모델에서 5~15% 향상
  • 실제 클러스터 성능은 NVLink/InfiniBand 네트워크에 크게 좌우

LLM 학습 시간 추정 (단일 모델)

모델파라미터8x H1008x B2008x MI300X
Llama 3 8B8B~3일~1일~4일
Llama 3 70B70B~30일~10일~35일
GPT-4급~1T+수천 GPU 필요수천 GPU 필요-

데이터 양, 학습 설정에 따라 크게 변동. 대략적 추정치.


데이터센터 GPU — AI 추론 성능

LLM 추론 throughput (토큰/초, Llama 2 70B 기준)

GPU단일 GPU비고
A100 80GB~30 tok/s기준선
H100 SXM~100 tok/sA100 대비 3x+
H200 SXM~130 tok/s메모리 여유로 배치 크기 증가
B200~350 tok/sFP4로 추론 시 극대화
MI300X~110 tok/sH100과 유사, 메모리에서 유리

vLLM / TensorRT-LLM 기준, 배치 크기·양자화에 따라 변동

추론 비용 효율 ($/M 토큰, Llama 70B 기준)

GPU대략 비용비고
A100~$1.50레거시
H100~$0.60현재 표준
H200~$0.45메모리 이점
B200~$0.25FP4 최적화
MI300X~$0.50H100 대비 저렴
Gaudi 3~$0.40가격 경쟁력

클라우드 인스턴스 가격 기반 추정. 전용 칩은 AI Inference Accelerator 참조.

TTFT (Time To First Token) — 지연 시간

GPULlama 70B TTFT비고
A100~1.5초
H100~0.5초
H200~0.4초
B200~0.2초
Groq LPU~0.1초AI Inference Accelerator

소비자 GPU — AI 개발 성능

로컬 LLM 추론 (llama.cpp, Ollama 기준)

GPUVRAMLlama 3 8B (Q4)Llama 3 70B (Q4)비고
RTX 3060 12GB12GB~20 tok/s불가 (VRAM 부족)입문용
RTX 309024GB~35 tok/s~5 tok/s (오프로드)중고 가성비
RTX 4060 Ti 16GB16GB~25 tok/s불가
RTX 4070 Ti Super16GB~30 tok/s불가
RTX 409024GB~45 tok/s~8 tok/s (오프로드)현 최강 가성비
RTX 508016GB~35 tok/s불가GDDR7
RTX 509032GB~55 tok/s~12 tok/s (오프로드)32GB VRAM
Mac M4 Max128GB 통합~30 tok/s~20 tok/s통합 메모리 이점
Mac M4 Ultra192GB 통합~40 tok/s~25 tok/s대형 모델 로컬 최강

Q4 = 4bit 양자화 (Model Quantization). 오프로드 = GPU+CPU 메모리 분할 로딩.

VRAM별 실행 가능 모델

VRAM실행 가능 모델 (Q4 양자화)
8GB7B 이하 (Llama 3 8B 빠듯)
12GB7B~8B 여유, 13B 빠듯
16GB13B 여유, 30B 빠듯
24GB30B 여유, 70B 오프로드
32GB70B (Q4) 단독 가능
48GB (2x 24GB)70B 여유
128GB+ (Mac 통합)70B FP16 가능

파인튜닝 성능 (LoRA, Llama 3 8B)

GPUVRAMLoRA 학습 속도QLoRA 가능
RTX 309024GB~1.0xO
RTX 409024GB~1.8xO
RTX 509032GB~2.2xO
A100 80GB80GB~2.5xO (풀 파인튜닝도 가능)
Mac M4 Max128GB~0.8x (MPS)O

QLoRA: 4bit 양자화 + LoRA로 VRAM 사용량 대폭 절감


게이밍 GPU 성능 비교

NVIDIA GeForce (래스터 + RT)

RTX 4090 = 100% 기준 (4K 게이밍)

GPU4K 상대 성능VRAM출시가 (USD)성능/$
RTX 3060 12GB~30%12GB$329
RTX 3070~42%8GB$499
RTX 3080~52%10GB$699
RTX 3090~60%24GB$1,499낮음
RTX 4060 Ti~35%8/16GB$399
RTX 4070~45%12GB$599중상
RTX 4070 Ti Super~58%16GB$799중상
RTX 4080 Super~78%16GB$999중상
RTX 4090100%24GB$1,599높음
RTX 5070~70%12GB$549높음
RTX 5070 Ti~80%16GB$749높음
RTX 5080~95%16GB$999높음
RTX 5090~140%32GB$1,999중상
  • RTX 50 시리즈: DLSS 4 (멀티 프레임 생성)으로 체감 성능 추가 향상
  • RTX 5070: RTX 4090급 성능을 $549에 (DLSS 4 포함 시)

AMD Radeon

GPU4K 상대 성능 (vs 4090)VRAM출시가비고
RX 7800 XT~42%16GB$499가성비
RX 7900 XT~55%20GB$899
RX 7900 XTX~65%24GB$999AMD 최상위
RX 9070 XT~60%16GB$549RDNA 4, FSR 4
  • AMD 강점: VRAM 대비 가격 우수, 리눅스 오픈소스 드라이버
  • AMD 약점: RT(레이트레이싱) 성능, AI 기능 (DLSS 대항 FSR은 품질 열세)

Intel Arc

GPU1080p 상대 성능VRAM출시가비고
Arc B580RTX 4060급12GB$249가성비 최강
Arc A770RTX 4060 Ti급16GB$349XeSS 업스케일링
  • 드라이버 성숙도 개선 중, 가격 대비 성능 우수
  • AI 활용 시 oneAPI/SYCL 지원하지만 CUDA 생태계와 호환 안 됨

클라우드 GPU 가격 비교 (2026.03 기준)

주요 클라우드별 시간당 가격 (USD/hr, 온디맨드)

GPUAWSGCPAzureLambda비고
A100 80GB$3.97$3.67$3.67$1.29레거시
H100 80GB$8.50$8.00-$2.49현재 주력
H200-$10.00-$3.29
B200미정미정미정-2025~2026 배포 중
MI300X---$1.99AMD, 저렴
Gaudi 2$3.47---dl2qa 인스턴스
L40S$2.94$2.35$2.29$0.99추론/멀티미디어

Lambda Labs, Vast.ai, RunPod 등 GPU 클라우드가 대형 CSP 대비 50~70% 저렴

월간 비용 추정 (24/7 운영)

GPU온디맨드 (월)예약 1년 (월)스팟/선점 (월)
A100 (AWS)~$2,860~$1,800~$1,000
H100 (AWS)~$6,120~$3,900~$2,100
H100 (Lambda)~$1,793--

GPU 세대별 가성비 추이

성능/$ (AI 추론 기준, V100 = 1.0x)

V100 (2017)    ████ 1.0x
A100 (2020)    ████████████ 3.0x
H100 (2022)    ████████████████████ 5.0x
H200 (2024)    ████████████████████████ 6.0x
B200 (2024)    ████████████████████████████████████ 9.0x

→ 2년마다 약 2배 가성비 향상
→ FP4/FP8 등 저정밀도 연산이 가성비 향상의 핵심 동력

선택 요약

AI 개발자

예산추천이유
~$300RTX 3060 12GB (중고)12GB VRAM, 입문
~$600RTX 4070 Ti Super / RTX 507016GB, 가성비
~$1,600RTX 409024GB, 현재 최고 가성비
~$2,000RTX 509032GB, 70B Q4 단독 실행
~$3,000+Mac M4 Max 128GB통합 메모리, 대형 모델
클라우드Lambda H100 ($2.49/hr)대형 학습/파인튜닝

게이머

예산추천이유
~$250Intel Arc B580가성비 최강, 12GB
~$500RX 9070 XT / RTX 50701440p~4K, 가성비
~$1,000RTX 50804K 고성능
~$2,000RTX 50904K 최강, 32GB

관련 항목