LLM Model Comparison

개요

주요 Large Language Models (LLMs)의 벤치마크 성능, API 가격, 컨텍스트 윈도우, 용도별 추천을 한 곳에 정리한 비교 페이지입니다.

참고 리더보드:

Chatbot Arena (LMArena): https://openlm.ai/chatbot-arena/
Artificial Analysis: https://artificialanalysis.ai/leaderboards/models
LLM Stats: https://llm-stats.com/
Onyx LLM Leaderboard: https://onyx.app/llm-leaderboard

상용 모델 벤치마크

플래그십 모델 비교 (2026.03 기준)

벤치마크	GPT-5.2	Claude Opus 4.6	Gemini 3.1 Pro	Grok 4
GPQA Diamond (PhD 추론)	93.2	91.3	94.3	-
SWE-bench Verified (코딩)	80.0	80.8	80.6	-
HumanEval (코드 생성)	95.0	95.0	-	-
AIME 2025 (수학)	100	100	-	-
LiveCodeBench	80.0	76.0	-	-
MMLU (일반 지식)	88~93	88~93	88~93	-

MMLU는 상위 모델 간 점수가 수렴(88~93%)하여 변별력 약화
GPQA Diamond: Gemini 3.1 Pro 선두
SWE-bench: Claude Opus 4.6 근소 선두
수학: GPT-5.2, Claude Opus 4.6 모두 AIME 만점

기타 상용 모델

모델	개발사	특징
Cohere Command R+	Cohere	RAG 특화, 엔터프라이즈 검색 최적화, 10개 언어 지원
Amazon Nova Pro	Amazon (AWS)	Bedrock 네이티브, 멀티모달, AWS 생태계 통합
Amazon Nova Lite/Micro	Amazon	저가형, Bedrock 전용
Perplexity Sonar	Perplexity	실시간 웹 검색 통합 LLM, API 제공
Inflection 3.0	Inflection AI	Pi 챗봇 기반, Microsoft와 협력
Reka Core	Reka AI	멀티모달 (영상/오디오/이미지+텍스트)
AI21 Jamba 2	AI21 Labs	SSM+Transformer 하이브리드 (Mamba), 256K 컨텍스트
Writer Palmyra X4	Writer	엔터프라이즈 특화, 자체 Palmyra 아키텍처

경량/고속 모델 비교

모델	개발사	MMLU	HumanEval	특징
GPT-5 mini	OpenAI	-	-	저가 고속
GPT-5 nano	OpenAI	-	-	초저가
Claude Haiku 4.5	Anthropic	-	-	빠른 응답
Gemini 3 Flash	Google	-	-	저가 + 빠름
Gemini 2.5 Flash-Lite	Google	-	-	최저가
Microsoft Phi-4	Microsoft	-	-	14B로 GPT-3.5급, SLM 최강
NVIDIA Nemotron	NVIDIA	-	-	합성 데이터 생성 특화
Apple Intelligence	Apple	-	-	온디바이스 (iPhone/Mac), 3B 모델

오픈소스 모델 벤치마크 (S-Tier)

모델	MMLU	HumanEval	SWE-bench	AIME 2025	GPQA Diamond	Arena Elo
Kimi K2.5	92.0	99.0	-	96.1	87.6	1447
MiniMax M2.5	-	89.6	80.2	86.3	85.2	-
GLM-5	-	-	77.8	84.0	86.0	1451
Step 3.5 Flash	-	-	74.4	97.3	-	-
DeepSeek R1	90.8	90.2	-	87.5	71.5	-
Qwen3-235B	-	-	-	92.0	-	-

Kimi K2.5: HumanEval 99.0 — 전체 모델 중 최고
MiniMax M2.5: SWE-bench 80.2 — 오픈소스 중 실전 코딩 최강
GLM-5: Arena Elo 1451 — 인간 선호도 최고
Step 3.5 Flash: AIME 97.3, 196B MoE에서 11B만 활성화, 350 tok/s
Qwen3-235B: AIME에서 OpenAI O3 능가 (92 vs 88)

→ 상세: Open Source LLM

오픈소스 모델 — 기타 주목할 모델

모델	개발사	파라미터	특징
Llama 4 Maverick	Meta	400B (MoE)	128 전문가, 17B 활성, 1M 컨텍스트
Llama 4 Scout	Meta	109B (MoE)	10M 컨텍스트, 16 전문가
Mistral Large 3	Mistral AI	123B	유럽 대표, 다국어 강점, 128K 컨텍스트
Mistral Small 3	Mistral AI	24B	로컬 실행 가능, Llama 3 70B급 성능
Yi-Lightning	01.AI (이카이푸)	-	중국, 가성비 높은 추론 모델
Baichuan 4	Baichuan (百川)	-	중국, 중국어 특화, 의료/법률 강점
DBRX	Databricks	132B (MoE)	36B 활성, 데이터 분석 특화
OLMo 2	Allen AI (AI2)	7B/13B	완전 오픈 (데이터+코드+가중치), 연구용
Falcon 3	TII (UAE)	1B~10B	아랍어 강점, 효율적 추론
Nous Hermes 3	Nous Research	다양	파인튜닝 커뮤니티 인기, 함수 호출 강점
Step 3.5 Flash	StepFun (阶跃星辰)	196B (MoE, 11B 활성)	수학/코딩 최강급, 350 tok/s, 256K 컨텍스트

한국형 LLM

모델	개발사	파라미터	특징
HyperCLOVA X	NAVER	-	한국어 최적화, NAVER 서비스 통합, 클로바 스튜디오
EXAONE 3.5	LG AI Research	2.4B/7.8B/32B	한국어+영어 이중언어, 오픈소스
Solar Pro	Upstage	22B	한국 스타트업, 경량 고성능, Document AI 강점
Kanana	Kakao	-	한국어 특화, 카카오 서비스 연동

API 가격 비교

프리미엄 모델 ($/M 토큰)

모델	입력	출력	성능 대비 가격
GPT-5.2 Pro	$21.00	$168.00	최고 성능, 최고가
Claude Opus 4.6	$5.00	$25.00	최고 성능, 합리적
Gemini 3.1 Pro	$2.00	$12.00	고성능, 가성비
GPT-5.2	$1.75	$14.00	고성능

중간급 모델

모델	입력	출력
Claude Sonnet 4.6	$3.00	$15.00
Claude Haiku 4.5	$1.00	$5.00
GPT-5	$1.25	$10.00
Gemini 3 Flash	$0.50	$3.00

저가형 모델

모델	입력	출력	비고
GPT-5 mini	$0.25	$2.00
Grok 4.1 Fast	$0.20	$0.50	2M 컨텍스트
DeepSeek V3	$0.14	$0.28	최저가 + 고성능
DeepSeek R1	$0.55	$2.19	GPT-4급 추론, 90% 저렴
Gemini 2.5 Flash-Lite	$0.10	$0.40
GPT-5 nano	$0.05	$0.40	최저가
Cohere Command R+	$2.50	$10.00	RAG 특화
AI21 Jamba 2	$0.50	$0.70	SSM 하이브리드, 256K
Amazon Nova Pro	-	-	Bedrock 전용 (토큰당 과금)
Mistral Large 3	$2.00	$6.00	유럽, 다국어
Perplexity Sonar Pro	$3.00	$15.00	웹 검색 통합

가격 트렌드

2025→2026 API 가격 약 80% 하락
출력 토큰이 입력 대비 3~10배 비쌈 (비용 관리 핵심)
프롬프트 캐싱으로 반복 컨텍스트 90% 절감 가능
배치 API로 비동기 처리 시 50% 할인
70~80% 프로덕션 워크로드에서 중간급 모델 = 프리미엄 모델 성능

컨텍스트 윈도우 비교

모델	컨텍스트	최대 출력	비고
Llama 4 Scout	10M	-	오픈소스
Grok 4.1 Heavy	2M	-	소비자 플랫폼 최대
Gemini 3 Pro	2M	-
GPT-4.1	1M	-	길이 추가 요금 없음
Claude Sonnet 4.6	1M (베타)	-	200K 기본, 1M 베타
Gemini 2.5 Pro/Flash	1M	-
GPT-5.2	400K	128K
Claude Opus 4.6	200K	64K	1M 베타 (Max 20x)

주의사항

실효 컨텍스트 ≠ 광고 컨텍스트: NVIDIA RULER 벤치마크 기준 실효 컨텍스트는 광고의 50~65%
“Lost in the Middle”: 시작/끝 정보 정확도 85~~95%, 중간 76~~82%
200K 모델이 150K에서 90% 유지 > 2M 모델이 150K에서 60%인 경우 있음
Anthropic/Google: 200K 초과 시 2배 추가 요금

용도별 추천

최고 성능

용도	추천 모델	이유
종합 최강	Gemini 3.1 Pro	Arena Elo ~1500, GPQA 94.3%
코딩 (에이전트)	Claude Opus 4.6	SWE-bench 80.8%, 에이전틱 코딩 최강
추론/수학	GPT-5.2 Pro	AIME 100%, 가장 깊은 추론
코딩 (생성)	GPT-5.2	HumanEval 95%, LiveCodeBench 80%

가성비

용도	추천 모델	이유
가성비 최강	DeepSeek V3 ( $0.14/$ 0.28)	프론티어급 성능, 94% 저렴
추론 가성비	DeepSeek R1 ( $0.55/$ 2.19)	GPT-4급 추론, 90% 저렴
범용 가성비	Gemini 3 Flash ( $0.50/$ 3)	속도 + 저가
초저가	GPT-5 nano ( $0.05/$ 0.40)	간단한 작업

특수 용도

용도	추천 모델	이유
대용량 컨텍스트	Gemini 3 Pro (2M)	최대 + 안정적
무료	Gemini CLI (일 1,000회)	1M 컨텍스트, 무료
오픈소스 코딩	Kimi K2.5	HumanEval 99.0
오픈소스 추론	Qwen3-235B / DeepSeek R1	AIME 90%+
다국어	Qwen3 (119개 언어)	다국어 최강
모바일/엣지	Gemma 3 1B / Ministral 3B	초경량
온디바이스 (Apple)	Apple Intelligence (3B)	iPhone/Mac 네이티브
한국어	HyperCLOVA X / EXAONE 3.5	한국어 최적화
RAG/검색	Cohere Command R+	검색 증강 생성 특화
엔터프라이즈 (AWS)	Amazon Nova Pro	Bedrock 생태계 통합
연구/재현성	OLMo 2 (AI2)	데이터+코드+가중치 완전 공개
문서 처리	Solar Pro (Upstage)	Document AI, OCR 강점

벤치마크 설명

벤치마크	측정 영역	설명
MMLU	일반 지식	57개 과목 객관식, 상위 모델 수렴으로 변별력 약화
GPQA Diamond	PhD급 추론	전문가 수준 과학/수학 문제
SWE-bench Verified	실전 코딩	실제 GitHub 이슈 해결 능력
HumanEval	코드 생성	함수 구현 정확도
LiveCodeBench	코딩 (동적)	최신 코딩 문제로 지속 업데이트
AIME	수학 추론	미국 수학 올림피아드 문제
MATH-500	수학 전반	다양한 난이도 수학 문제
IFEval	지시 따르기	형식/제약 조건 준수도
Arena Elo	인간 선호도	Chatbot Arena 블라인드 투표 (600만+ 투표)

2026 트렌드

모델 라우팅 시대: “최고의 모델”이 아닌 “작업별 최적 모델”을 선택하는 능력이 핵심
MMLU 포화: 상위 모델 88~93%로 수렴, SWE-bench/GPQA가 새로운 변별 기준
가격 붕괴: 1년간 80% 하락, DeepSeek가 가격 경쟁 주도
컨텍스트 경쟁: 1M → 2M → 10M 확대, 하지만 실효 컨텍스트는 50~65%
탁월함의 분산: 단일 모델이 모든 영역 지배하는 시대 종료

관련 항목