개요
주요 Large Language Models (LLMs)의 벤치마크 성능, API 가격, 컨텍스트 윈도우, 용도별 추천을 한 곳에 정리한 비교 페이지입니다.
참고 리더보드:
상용 모델 벤치마크
플래그십 모델 비교 (2026.03 기준)
| 벤치마크 | GPT-5.2 | Claude Opus 4.6 | Gemini 3.1 Pro | Grok 4 |
|---|
| GPQA Diamond (PhD 추론) | 93.2 | 91.3 | 94.3 | - |
| SWE-bench Verified (코딩) | 80.0 | 80.8 | 80.6 | - |
| HumanEval (코드 생성) | 95.0 | 95.0 | - | - |
| AIME 2025 (수학) | 100 | 100 | - | - |
| LiveCodeBench | 80.0 | 76.0 | - | - |
| MMLU (일반 지식) | 88~93 | 88~93 | 88~93 | - |
- MMLU는 상위 모델 간 점수가 수렴(88~93%)하여 변별력 약화
- GPQA Diamond: Gemini 3.1 Pro 선두
- SWE-bench: Claude Opus 4.6 근소 선두
- 수학: GPT-5.2, Claude Opus 4.6 모두 AIME 만점
기타 상용 모델
| 모델 | 개발사 | 특징 |
|---|
| Cohere Command R+ | Cohere | RAG 특화, 엔터프라이즈 검색 최적화, 10개 언어 지원 |
| Amazon Nova Pro | Amazon (AWS) | Bedrock 네이티브, 멀티모달, AWS 생태계 통합 |
| Amazon Nova Lite/Micro | Amazon | 저가형, Bedrock 전용 |
| Perplexity Sonar | Perplexity | 실시간 웹 검색 통합 LLM, API 제공 |
| Inflection 3.0 | Inflection AI | Pi 챗봇 기반, Microsoft와 협력 |
| Reka Core | Reka AI | 멀티모달 (영상/오디오/이미지+텍스트) |
| AI21 Jamba 2 | AI21 Labs | SSM+Transformer 하이브리드 (Mamba), 256K 컨텍스트 |
| Writer Palmyra X4 | Writer | 엔터프라이즈 특화, 자체 Palmyra 아키텍처 |
경량/고속 모델 비교
| 모델 | 개발사 | MMLU | HumanEval | 특징 |
|---|
| GPT-5 mini | OpenAI | - | - | 저가 고속 |
| GPT-5 nano | OpenAI | - | - | 초저가 |
| Claude Haiku 4.5 | Anthropic | - | - | 빠른 응답 |
| Gemini 3 Flash | Google | - | - | 저가 + 빠름 |
| Gemini 2.5 Flash-Lite | Google | - | - | 최저가 |
| Microsoft Phi-4 | Microsoft | - | - | 14B로 GPT-3.5급, SLM 최강 |
| NVIDIA Nemotron | NVIDIA | - | - | 합성 데이터 생성 특화 |
| Apple Intelligence | Apple | - | - | 온디바이스 (iPhone/Mac), 3B 모델 |
오픈소스 모델 벤치마크 (S-Tier)
| 모델 | MMLU | HumanEval | SWE-bench | AIME 2025 | GPQA Diamond | Arena Elo |
|---|
| Kimi K2.5 | 92.0 | 99.0 | - | 96.1 | 87.6 | 1447 |
| MiniMax M2.5 | - | 89.6 | 80.2 | 86.3 | 85.2 | - |
| GLM-5 | - | - | 77.8 | 84.0 | 86.0 | 1451 |
| Step 3.5 Flash | - | - | 74.4 | 97.3 | - | - |
| DeepSeek R1 | 90.8 | 90.2 | - | 87.5 | 71.5 | - |
| Qwen3-235B | - | - | - | 92.0 | - | - |
- Kimi K2.5: HumanEval 99.0 — 전체 모델 중 최고
- MiniMax M2.5: SWE-bench 80.2 — 오픈소스 중 실전 코딩 최강
- GLM-5: Arena Elo 1451 — 인간 선호도 최고
- Step 3.5 Flash: AIME 97.3, 196B MoE에서 11B만 활성화, 350 tok/s
- Qwen3-235B: AIME에서 OpenAI O3 능가 (92 vs 88)
→ 상세: Open Source LLM
오픈소스 모델 — 기타 주목할 모델
| 모델 | 개발사 | 파라미터 | 특징 |
|---|
| Llama 4 Maverick | Meta | 400B (MoE) | 128 전문가, 17B 활성, 1M 컨텍스트 |
| Llama 4 Scout | Meta | 109B (MoE) | 10M 컨텍스트, 16 전문가 |
| Mistral Large 3 | Mistral AI | 123B | 유럽 대표, 다국어 강점, 128K 컨텍스트 |
| Mistral Small 3 | Mistral AI | 24B | 로컬 실행 가능, Llama 3 70B급 성능 |
| Yi-Lightning | 01.AI (이카이푸) | - | 중국, 가성비 높은 추론 모델 |
| Baichuan 4 | Baichuan (百川) | - | 중국, 중국어 특화, 의료/법률 강점 |
| DBRX | Databricks | 132B (MoE) | 36B 활성, 데이터 분석 특화 |
| OLMo 2 | Allen AI (AI2) | 7B/13B | 완전 오픈 (데이터+코드+가중치), 연구용 |
| Falcon 3 | TII (UAE) | 1B~10B | 아랍어 강점, 효율적 추론 |
| Nous Hermes 3 | Nous Research | 다양 | 파인튜닝 커뮤니티 인기, 함수 호출 강점 |
| Step 3.5 Flash | StepFun (阶跃星辰) | 196B (MoE, 11B 활성) | 수학/코딩 최강급, 350 tok/s, 256K 컨텍스트 |
한국형 LLM
| 모델 | 개발사 | 파라미터 | 특징 |
|---|
| HyperCLOVA X | NAVER | - | 한국어 최적화, NAVER 서비스 통합, 클로바 스튜디오 |
| EXAONE 3.5 | LG AI Research | 2.4B/7.8B/32B | 한국어+영어 이중언어, 오픈소스 |
| Solar Pro | Upstage | 22B | 한국 스타트업, 경량 고성능, Document AI 강점 |
| Kanana | Kakao | - | 한국어 특화, 카카오 서비스 연동 |
API 가격 비교
프리미엄 모델 ($/M 토큰)
| 모델 | 입력 | 출력 | 성능 대비 가격 |
|---|
| GPT-5.2 Pro | $21.00 | $168.00 | 최고 성능, 최고가 |
| Claude Opus 4.6 | $5.00 | $25.00 | 최고 성능, 합리적 |
| Gemini 3.1 Pro | $2.00 | $12.00 | 고성능, 가성비 |
| GPT-5.2 | $1.75 | $14.00 | 고성능 |
중간급 모델
| 모델 | 입력 | 출력 |
|---|
| Claude Sonnet 4.6 | $3.00 | $15.00 |
| Claude Haiku 4.5 | $1.00 | $5.00 |
| GPT-5 | $1.25 | $10.00 |
| Gemini 3 Flash | $0.50 | $3.00 |
저가형 모델
| 모델 | 입력 | 출력 | 비고 |
|---|
| GPT-5 mini | $0.25 | $2.00 | |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M 컨텍스트 |
| DeepSeek V3 | $0.14 | $0.28 | 최저가 + 고성능 |
| DeepSeek R1 | $0.55 | $2.19 | GPT-4급 추론, 90% 저렴 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | |
| GPT-5 nano | $0.05 | $0.40 | 최저가 |
| Cohere Command R+ | $2.50 | $10.00 | RAG 특화 |
| AI21 Jamba 2 | $0.50 | $0.70 | SSM 하이브리드, 256K |
| Amazon Nova Pro | - | - | Bedrock 전용 (토큰당 과금) |
| Mistral Large 3 | $2.00 | $6.00 | 유럽, 다국어 |
| Perplexity Sonar Pro | $3.00 | $15.00 | 웹 검색 통합 |
가격 트렌드
- 2025→2026 API 가격 약 80% 하락
- 출력 토큰이 입력 대비 3~10배 비쌈 (비용 관리 핵심)
- 프롬프트 캐싱으로 반복 컨텍스트 90% 절감 가능
- 배치 API로 비동기 처리 시 50% 할인
- 70~80% 프로덕션 워크로드에서 중간급 모델 = 프리미엄 모델 성능
컨텍스트 윈도우 비교
| 모델 | 컨텍스트 | 최대 출력 | 비고 |
|---|
| Llama 4 Scout | 10M | - | 오픈소스 |
| Grok 4.1 Heavy | 2M | - | 소비자 플랫폼 최대 |
| Gemini 3 Pro | 2M | - | |
| GPT-4.1 | 1M | - | 길이 추가 요금 없음 |
| Claude Sonnet 4.6 | 1M (베타) | - | 200K 기본, 1M 베타 |
| Gemini 2.5 Pro/Flash | 1M | - | |
| GPT-5.2 | 400K | 128K | |
| Claude Opus 4.6 | 200K | 64K | 1M 베타 (Max 20x) |
주의사항
- 실효 컨텍스트 ≠ 광고 컨텍스트: NVIDIA RULER 벤치마크 기준 실효 컨텍스트는 광고의 50~65%
- “Lost in the Middle”: 시작/끝 정보 정확도 85
95%, 중간 7682%
- 200K 모델이 150K에서 90% 유지 > 2M 모델이 150K에서 60%인 경우 있음
- Anthropic/Google: 200K 초과 시 2배 추가 요금
용도별 추천
최고 성능
| 용도 | 추천 모델 | 이유 |
|---|
| 종합 최강 | Gemini 3.1 Pro | Arena Elo ~1500, GPQA 94.3% |
| 코딩 (에이전트) | Claude Opus 4.6 | SWE-bench 80.8%, 에이전틱 코딩 최강 |
| 추론/수학 | GPT-5.2 Pro | AIME 100%, 가장 깊은 추론 |
| 코딩 (생성) | GPT-5.2 | HumanEval 95%, LiveCodeBench 80% |
가성비
| 용도 | 추천 모델 | 이유 |
|---|
| 가성비 최강 | DeepSeek V3 (0.14/0.28) | 프론티어급 성능, 94% 저렴 |
| 추론 가성비 | DeepSeek R1 (0.55/2.19) | GPT-4급 추론, 90% 저렴 |
| 범용 가성비 | Gemini 3 Flash (0.50/3) | 속도 + 저가 |
| 초저가 | GPT-5 nano (0.05/0.40) | 간단한 작업 |
특수 용도
| 용도 | 추천 모델 | 이유 |
|---|
| 대용량 컨텍스트 | Gemini 3 Pro (2M) | 최대 + 안정적 |
| 무료 | Gemini CLI (일 1,000회) | 1M 컨텍스트, 무료 |
| 오픈소스 코딩 | Kimi K2.5 | HumanEval 99.0 |
| 오픈소스 추론 | Qwen3-235B / DeepSeek R1 | AIME 90%+ |
| 다국어 | Qwen3 (119개 언어) | 다국어 최강 |
| 모바일/엣지 | Gemma 3 1B / Ministral 3B | 초경량 |
| 온디바이스 (Apple) | Apple Intelligence (3B) | iPhone/Mac 네이티브 |
| 한국어 | HyperCLOVA X / EXAONE 3.5 | 한국어 최적화 |
| RAG/검색 | Cohere Command R+ | 검색 증강 생성 특화 |
| 엔터프라이즈 (AWS) | Amazon Nova Pro | Bedrock 생태계 통합 |
| 연구/재현성 | OLMo 2 (AI2) | 데이터+코드+가중치 완전 공개 |
| 문서 처리 | Solar Pro (Upstage) | Document AI, OCR 강점 |
벤치마크 설명
| 벤치마크 | 측정 영역 | 설명 |
|---|
| MMLU | 일반 지식 | 57개 과목 객관식, 상위 모델 수렴으로 변별력 약화 |
| GPQA Diamond | PhD급 추론 | 전문가 수준 과학/수학 문제 |
| SWE-bench Verified | 실전 코딩 | 실제 GitHub 이슈 해결 능력 |
| HumanEval | 코드 생성 | 함수 구현 정확도 |
| LiveCodeBench | 코딩 (동적) | 최신 코딩 문제로 지속 업데이트 |
| AIME | 수학 추론 | 미국 수학 올림피아드 문제 |
| MATH-500 | 수학 전반 | 다양한 난이도 수학 문제 |
| IFEval | 지시 따르기 | 형식/제약 조건 준수도 |
| Arena Elo | 인간 선호도 | Chatbot Arena 블라인드 투표 (600만+ 투표) |
2026 트렌드
- 모델 라우팅 시대: “최고의 모델”이 아닌 “작업별 최적 모델”을 선택하는 능력이 핵심
- MMLU 포화: 상위 모델 88~93%로 수렴, SWE-bench/GPQA가 새로운 변별 기준
- 가격 붕괴: 1년간 80% 하락, DeepSeek가 가격 경쟁 주도
- 컨텍스트 경쟁: 1M → 2M → 10M 확대, 하지만 실효 컨텍스트는 50~65%
- 탁월함의 분산: 단일 모델이 모든 영역 지배하는 시대 종료
관련 항목