GPU Benchmark Comparison

개요

GPU 성능을 AI 학습, AI 추론, 게이밍, 전문 작업 관점에서 비교한 페이지입니다. 단순 TFLOPS 수치보다 실제 워크로드 기준 벤치마크에 초점을 맞춥니다.

참고 벤치마크 사이트:

MLPerf (공식): https://mlcommons.org/benchmarks/
LambdaLabs GPU Benchmark: https://lambdalabs.com/gpu-benchmarks
Artificial Analysis (추론): https://artificialanalysis.ai/leaderboards/hardware
TechPowerUp (게이밍): https://www.techpowerup.com/gpu-specs/
Tom’s Hardware GPU Hierarchy: https://www.tomshardware.com/reviews/gpu-benchmark-hierarchy

데이터센터 GPU — AI 학습 성능

스펙 비교

GPU	아키텍처	VRAM	대역폭	FP16	FP8	FP4	TDP	NVLink
V100	Volta	32GB HBM2	900 GB/s	125 TF	-	-	300W	300 GB/s
A100 SXM	Ampere	80GB HBM2e	2.0 TB/s	312 TF	-	-	400W	600 GB/s
H100 SXM	Hopper	80GB HBM3	3.35 TB/s	1,979 TF	3,958 TF	-	700W	900 GB/s
H200 SXM	Hopper	141GB HBM3e	4.8 TB/s	1,979 TF	3,958 TF	-	700W	900 GB/s
B200	Blackwell	192GB HBM3e	8.0 TB/s	4,500 TF	4,500 TF	9,000 TF	1,000W	1,800 GB/s
GB300	Blackwell	288GB HBM3e	12.0 TB/s	4,500 TF	4,500 TF	9,000 TF	1,400W	1,800 GB/s
MI300X	CDNA 3	192GB HBM3	5.3 TB/s	1,307 TF	2,615 TF	-	750W	-
MI325X	CDNA 3	256GB HBM3e	6.0 TB/s	1,307 TF	2,615 TF	-	750W	-
Gaudi 3	Intel	128GB HBM2e	3.7 TB/s	-	3,670 TF	-	900W	-

TF = TFLOPS (Tensor/Matrix 연산 기준, 희소성 미포함)

MLPerf 학습 벤치마크 (상대 성능)

V100 = 1.0x 기준

워크로드	V100	A100	H100	H200	B200
LLM 학습 (GPT-3급)	1.0x	~3x	~9x	~9x	~25x
이미지 분류 (ResNet-50)	1.0x	~2.5x	~6x	~6x	~15x
객체 탐지 (RetinaNet)	1.0x	~2.5x	~7x	~7x	~18x
추천 시스템 (DLRM)	1.0x	~3x	~8x	~10x	~20x

B200은 FP4 지원으로 추론에서 더 큰 격차
H200 vs H100: 컴퓨팅 동일하지만 메모리 증가로 대형 모델에서 5~15% 향상
실제 클러스터 성능은 NVLink/InfiniBand 네트워크에 크게 좌우

LLM 학습 시간 추정 (단일 모델)

모델	파라미터	8x H100	8x B200	8x MI300X
Llama 3 8B	8B	~3일	~1일	~4일
Llama 3 70B	70B	~30일	~10일	~35일
GPT-4급	~1T+	수천 GPU 필요	수천 GPU 필요	-

데이터 양, 학습 설정에 따라 크게 변동. 대략적 추정치.

데이터센터 GPU — AI 추론 성능

LLM 추론 throughput (토큰/초, Llama 2 70B 기준)

GPU	단일 GPU	비고
A100 80GB	~30 tok/s	기준선
H100 SXM	~100 tok/s	A100 대비 3x+
H200 SXM	~130 tok/s	메모리 여유로 배치 크기 증가
B200	~350 tok/s	FP4로 추론 시 극대화
MI300X	~110 tok/s	H100과 유사, 메모리에서 유리

vLLM / TensorRT-LLM 기준, 배치 크기·양자화에 따라 변동

추론 비용 효율 ($/M 토큰, Llama 70B 기준)

GPU	대략 비용	비고
A100	~$1.50	레거시
H100	~$0.60	현재 표준
H200	~$0.45	메모리 이점
B200	~$0.25	FP4 최적화
MI300X	~$0.50	H100 대비 저렴
Gaudi 3	~$0.40	가격 경쟁력

클라우드 인스턴스 가격 기반 추정. 전용 칩은 AI Inference Accelerator 참조.

TTFT (Time To First Token) — 지연 시간

GPU	Llama 70B TTFT	비고
A100	~1.5초
H100	~0.5초
H200	~0.4초
B200	~0.2초
Groq LPU	~0.1초	AI Inference Accelerator

소비자 GPU — AI 개발 성능

로컬 LLM 추론 (llama.cpp, Ollama 기준)

GPU	VRAM	Llama 3 8B (Q4)	Llama 3 70B (Q4)	비고
RTX 3060 12GB	12GB	~20 tok/s	불가 (VRAM 부족)	입문용
RTX 3090	24GB	~35 tok/s	~5 tok/s (오프로드)	중고 가성비
RTX 4060 Ti 16GB	16GB	~25 tok/s	불가
RTX 4070 Ti Super	16GB	~30 tok/s	불가
RTX 4090	24GB	~45 tok/s	~8 tok/s (오프로드)	현 최강 가성비
RTX 5080	16GB	~35 tok/s	불가	GDDR7
RTX 5090	32GB	~55 tok/s	~12 tok/s (오프로드)	32GB VRAM
Mac M4 Max	128GB 통합	~30 tok/s	~20 tok/s	통합 메모리 이점
Mac M4 Ultra	192GB 통합	~40 tok/s	~25 tok/s	대형 모델 로컬 최강

Q4 = 4bit 양자화 (Model Quantization). 오프로드 = GPU+CPU 메모리 분할 로딩.

VRAM별 실행 가능 모델

VRAM	실행 가능 모델 (Q4 양자화)
8GB	7B 이하 (Llama 3 8B 빠듯)
12GB	7B~8B 여유, 13B 빠듯
16GB	13B 여유, 30B 빠듯
24GB	30B 여유, 70B 오프로드
32GB	70B (Q4) 단독 가능
48GB (2x 24GB)	70B 여유
128GB+ (Mac 통합)	70B FP16 가능

파인튜닝 성능 (LoRA, Llama 3 8B)

GPU	VRAM	LoRA 학습 속도	QLoRA 가능
RTX 3090	24GB	~1.0x	O
RTX 4090	24GB	~1.8x	O
RTX 5090	32GB	~2.2x	O
A100 80GB	80GB	~2.5x	O (풀 파인튜닝도 가능)
Mac M4 Max	128GB	~0.8x (MPS)	O

QLoRA: 4bit 양자화 + LoRA로 VRAM 사용량 대폭 절감

게이밍 GPU 성능 비교

NVIDIA GeForce (래스터 + RT)

RTX 4090 = 100% 기준 (4K 게이밍)

GPU	4K 상대 성능	VRAM	출시가 (USD)	성능/$
RTX 3060 12GB	~30%	12GB	$329	중
RTX 3070	~42%	8GB	$499	중
RTX 3080	~52%	10GB	$699	중
RTX 3090	~60%	24GB	$1,499	낮음
RTX 4060 Ti	~35%	8/16GB	$399	중
RTX 4070	~45%	12GB	$599	중상
RTX 4070 Ti Super	~58%	16GB	$799	중상
RTX 4080 Super	~78%	16GB	$999	중상
RTX 4090	100%	24GB	$1,599	높음
RTX 5070	~70%	12GB	$549	높음
RTX 5070 Ti	~80%	16GB	$749	높음
RTX 5080	~95%	16GB	$999	높음
RTX 5090	~140%	32GB	$1,999	중상

RTX 50 시리즈: DLSS 4 (멀티 프레임 생성)으로 체감 성능 추가 향상
RTX 5070: RTX 4090급 성능을 $549에 (DLSS 4 포함 시)

AMD Radeon

GPU	4K 상대 성능 (vs 4090)	VRAM	출시가	비고
RX 7800 XT	~42%	16GB	$499	가성비
RX 7900 XT	~55%	20GB	$899
RX 7900 XTX	~65%	24GB	$999	AMD 최상위
RX 9070 XT	~60%	16GB	$549	RDNA 4, FSR 4

AMD 강점: VRAM 대비 가격 우수, 리눅스 오픈소스 드라이버
AMD 약점: RT(레이트레이싱) 성능, AI 기능 (DLSS 대항 FSR은 품질 열세)

Intel Arc

GPU	1080p 상대 성능	VRAM	출시가	비고
Arc B580	RTX 4060급	12GB	$249	가성비 최강
Arc A770	RTX 4060 Ti급	16GB	$349	XeSS 업스케일링

드라이버 성숙도 개선 중, 가격 대비 성능 우수
AI 활용 시 oneAPI/SYCL 지원하지만 CUDA 생태계와 호환 안 됨

클라우드 GPU 가격 비교 (2026.03 기준)

주요 클라우드별 시간당 가격 (USD/hr, 온디맨드)

GPU	AWS	GCP	Azure	Lambda	비고
A100 80GB	$3.97	$3.67	$3.67	$1.29	레거시
H100 80GB	$8.50	$8.00	-	$2.49	현재 주력
H200	-	$10.00	-	$3.29
B200	미정	미정	미정	-	2025~2026 배포 중
MI300X	-	-	-	$1.99	AMD, 저렴
Gaudi 2	$3.47	-	-	-	dl2qa 인스턴스
L40S	$2.94	$2.35	$2.29	$0.99	추론/멀티미디어

Lambda Labs, Vast.ai, RunPod 등 GPU 클라우드가 대형 CSP 대비 50~70% 저렴

월간 비용 추정 (24/7 운영)

GPU	온디맨드 (월)	예약 1년 (월)	스팟/선점 (월)
A100 (AWS)	~$2,860	~$1,800	~$1,000
H100 (AWS)	~$6,120	~$3,900	~$2,100
H100 (Lambda)	~$1,793	-	-

GPU 세대별 가성비 추이

성능/$ (AI 추론 기준, V100 = 1.0x)

V100 (2017)    ████ 1.0x
A100 (2020)    ████████████ 3.0x
H100 (2022)    ████████████████████ 5.0x
H200 (2024)    ████████████████████████ 6.0x
B200 (2024)    ████████████████████████████████████ 9.0x

→ 2년마다 약 2배 가성비 향상
→ FP4/FP8 등 저정밀도 연산이 가성비 향상의 핵심 동력

선택 요약

AI 개발자

예산	추천	이유
~$300	RTX 3060 12GB (중고)	12GB VRAM, 입문
~$600	RTX 4070 Ti Super / RTX 5070	16GB, 가성비
~$1,600	RTX 4090	24GB, 현재 최고 가성비
~$2,000	RTX 5090	32GB, 70B Q4 단독 실행
~$3,000+	Mac M4 Max 128GB	통합 메모리, 대형 모델
클라우드	Lambda H100 ($2.49/hr)	대형 학습/파인튜닝

게이머

예산	추천	이유
~$250	Intel Arc B580	가성비 최강, 12GB
~$500	RX 9070 XT / RTX 5070	1440p~4K, 가성비
~$1,000	RTX 5080	4K 고성능
~$2,000	RTX 5090	4K 최강, 32GB

Bigstones

Explorer

GPU Benchmark Comparison

개요

데이터센터 GPU — AI 학습 성능

스펙 비교

MLPerf 학습 벤치마크 (상대 성능)

LLM 학습 시간 추정 (단일 모델)

데이터센터 GPU — AI 추론 성능

LLM 추론 throughput (토큰/초, Llama 2 70B 기준)

추론 비용 효율 ($/M 토큰, Llama 70B 기준)

TTFT (Time To First Token) — 지연 시간

소비자 GPU — AI 개발 성능

로컬 LLM 추론 (llama.cpp, Ollama 기준)

VRAM별 실행 가능 모델

파인튜닝 성능 (LoRA, Llama 3 8B)

게이밍 GPU 성능 비교

NVIDIA GeForce (래스터 + RT)

AMD Radeon

Intel Arc

클라우드 GPU 가격 비교 (2026.03 기준)

주요 클라우드별 시간당 가격 (USD/hr, 온디맨드)

월간 비용 추정 (24/7 운영)

GPU 세대별 가성비 추이

선택 요약

AI 개발자

게이머

관련 항목

Graph View

Table of Contents

Backlinks