개요

주요 Large Language Models (LLMs)의 벤치마크 성능, API 가격, 컨텍스트 윈도우, 용도별 추천을 한 곳에 정리한 비교 페이지입니다.

참고 리더보드:

상용 모델 벤치마크

플래그십 모델 비교 (2026.03 기준)

벤치마크GPT-5.2Claude Opus 4.6Gemini 3.1 ProGrok 4
GPQA Diamond (PhD 추론)93.291.394.3-
SWE-bench Verified (코딩)80.080.880.6-
HumanEval (코드 생성)95.095.0--
AIME 2025 (수학)100100--
LiveCodeBench80.076.0--
MMLU (일반 지식)88~9388~9388~93-
  • MMLU는 상위 모델 간 점수가 수렴(88~93%)하여 변별력 약화
  • GPQA Diamond: Gemini 3.1 Pro 선두
  • SWE-bench: Claude Opus 4.6 근소 선두
  • 수학: GPT-5.2, Claude Opus 4.6 모두 AIME 만점

기타 상용 모델

모델개발사특징
Cohere Command R+CohereRAG 특화, 엔터프라이즈 검색 최적화, 10개 언어 지원
Amazon Nova ProAmazon (AWS)Bedrock 네이티브, 멀티모달, AWS 생태계 통합
Amazon Nova Lite/MicroAmazon저가형, Bedrock 전용
Perplexity SonarPerplexity실시간 웹 검색 통합 LLM, API 제공
Inflection 3.0Inflection AIPi 챗봇 기반, Microsoft와 협력
Reka CoreReka AI멀티모달 (영상/오디오/이미지+텍스트)
AI21 Jamba 2AI21 LabsSSM+Transformer 하이브리드 (Mamba), 256K 컨텍스트
Writer Palmyra X4Writer엔터프라이즈 특화, 자체 Palmyra 아키텍처

경량/고속 모델 비교

모델개발사MMLUHumanEval특징
GPT-5 miniOpenAI--저가 고속
GPT-5 nanoOpenAI--초저가
Claude Haiku 4.5Anthropic--빠른 응답
Gemini 3 FlashGoogle--저가 + 빠름
Gemini 2.5 Flash-LiteGoogle--최저가
Microsoft Phi-4Microsoft--14B로 GPT-3.5급, SLM 최강
NVIDIA NemotronNVIDIA--합성 데이터 생성 특화
Apple IntelligenceApple--온디바이스 (iPhone/Mac), 3B 모델

오픈소스 모델 벤치마크 (S-Tier)

모델MMLUHumanEvalSWE-benchAIME 2025GPQA DiamondArena Elo
Kimi K2.592.099.0-96.187.61447
MiniMax M2.5-89.680.286.385.2-
GLM-5--77.884.086.01451
Step 3.5 Flash--74.497.3--
DeepSeek R190.890.2-87.571.5-
Qwen3-235B---92.0--
  • Kimi K2.5: HumanEval 99.0 — 전체 모델 중 최고
  • MiniMax M2.5: SWE-bench 80.2 — 오픈소스 중 실전 코딩 최강
  • GLM-5: Arena Elo 1451 — 인간 선호도 최고
  • Step 3.5 Flash: AIME 97.3, 196B MoE에서 11B만 활성화, 350 tok/s
  • Qwen3-235B: AIME에서 OpenAI O3 능가 (92 vs 88)

→ 상세: Open Source LLM

오픈소스 모델 — 기타 주목할 모델

모델개발사파라미터특징
Llama 4 MaverickMeta400B (MoE)128 전문가, 17B 활성, 1M 컨텍스트
Llama 4 ScoutMeta109B (MoE)10M 컨텍스트, 16 전문가
Mistral Large 3Mistral AI123B유럽 대표, 다국어 강점, 128K 컨텍스트
Mistral Small 3Mistral AI24B로컬 실행 가능, Llama 3 70B급 성능
Yi-Lightning01.AI (이카이푸)-중국, 가성비 높은 추론 모델
Baichuan 4Baichuan (百川)-중국, 중국어 특화, 의료/법률 강점
DBRXDatabricks132B (MoE)36B 활성, 데이터 분석 특화
OLMo 2Allen AI (AI2)7B/13B완전 오픈 (데이터+코드+가중치), 연구용
Falcon 3TII (UAE)1B~10B아랍어 강점, 효율적 추론
Nous Hermes 3Nous Research다양파인튜닝 커뮤니티 인기, 함수 호출 강점
Step 3.5 FlashStepFun (阶跃星辰)196B (MoE, 11B 활성)수학/코딩 최강급, 350 tok/s, 256K 컨텍스트

한국형 LLM

모델개발사파라미터특징
HyperCLOVA XNAVER-한국어 최적화, NAVER 서비스 통합, 클로바 스튜디오
EXAONE 3.5LG AI Research2.4B/7.8B/32B한국어+영어 이중언어, 오픈소스
Solar ProUpstage22B한국 스타트업, 경량 고성능, Document AI 강점
KananaKakao-한국어 특화, 카카오 서비스 연동

API 가격 비교

프리미엄 모델 ($/M 토큰)

모델입력출력성능 대비 가격
GPT-5.2 Pro$21.00$168.00최고 성능, 최고가
Claude Opus 4.6$5.00$25.00최고 성능, 합리적
Gemini 3.1 Pro$2.00$12.00고성능, 가성비
GPT-5.2$1.75$14.00고성능

중간급 모델

모델입력출력
Claude Sonnet 4.6$3.00$15.00
Claude Haiku 4.5$1.00$5.00
GPT-5$1.25$10.00
Gemini 3 Flash$0.50$3.00

저가형 모델

모델입력출력비고
GPT-5 mini$0.25$2.00
Grok 4.1 Fast$0.20$0.502M 컨텍스트
DeepSeek V3$0.14$0.28최저가 + 고성능
DeepSeek R1$0.55$2.19GPT-4급 추론, 90% 저렴
Gemini 2.5 Flash-Lite$0.10$0.40
GPT-5 nano$0.05$0.40최저가
Cohere Command R+$2.50$10.00RAG 특화
AI21 Jamba 2$0.50$0.70SSM 하이브리드, 256K
Amazon Nova Pro--Bedrock 전용 (토큰당 과금)
Mistral Large 3$2.00$6.00유럽, 다국어
Perplexity Sonar Pro$3.00$15.00웹 검색 통합

가격 트렌드

  • 2025→2026 API 가격 약 80% 하락
  • 출력 토큰이 입력 대비 3~10배 비쌈 (비용 관리 핵심)
  • 프롬프트 캐싱으로 반복 컨텍스트 90% 절감 가능
  • 배치 API로 비동기 처리 시 50% 할인
  • 70~80% 프로덕션 워크로드에서 중간급 모델 = 프리미엄 모델 성능

컨텍스트 윈도우 비교

모델컨텍스트최대 출력비고
Llama 4 Scout10M-오픈소스
Grok 4.1 Heavy2M-소비자 플랫폼 최대
Gemini 3 Pro2M-
GPT-4.11M-길이 추가 요금 없음
Claude Sonnet 4.61M (베타)-200K 기본, 1M 베타
Gemini 2.5 Pro/Flash1M-
GPT-5.2400K128K
Claude Opus 4.6200K64K1M 베타 (Max 20x)

주의사항

  • 실효 컨텍스트 ≠ 광고 컨텍스트: NVIDIA RULER 벤치마크 기준 실효 컨텍스트는 광고의 50~65%
  • “Lost in the Middle”: 시작/끝 정보 정확도 8595%, 중간 7682%
  • 200K 모델이 150K에서 90% 유지 > 2M 모델이 150K에서 60%인 경우 있음
  • Anthropic/Google: 200K 초과 시 2배 추가 요금

용도별 추천

최고 성능

용도추천 모델이유
종합 최강Gemini 3.1 ProArena Elo ~1500, GPQA 94.3%
코딩 (에이전트)Claude Opus 4.6SWE-bench 80.8%, 에이전틱 코딩 최강
추론/수학GPT-5.2 ProAIME 100%, 가장 깊은 추론
코딩 (생성)GPT-5.2HumanEval 95%, LiveCodeBench 80%

가성비

용도추천 모델이유
가성비 최강DeepSeek V3 (0.28)프론티어급 성능, 94% 저렴
추론 가성비DeepSeek R1 (2.19)GPT-4급 추론, 90% 저렴
범용 가성비Gemini 3 Flash (3)속도 + 저가
초저가GPT-5 nano (0.40)간단한 작업

특수 용도

용도추천 모델이유
대용량 컨텍스트Gemini 3 Pro (2M)최대 + 안정적
무료Gemini CLI (일 1,000회)1M 컨텍스트, 무료
오픈소스 코딩Kimi K2.5HumanEval 99.0
오픈소스 추론Qwen3-235B / DeepSeek R1AIME 90%+
다국어Qwen3 (119개 언어)다국어 최강
모바일/엣지Gemma 3 1B / Ministral 3B초경량
온디바이스 (Apple)Apple Intelligence (3B)iPhone/Mac 네이티브
한국어HyperCLOVA X / EXAONE 3.5한국어 최적화
RAG/검색Cohere Command R+검색 증강 생성 특화
엔터프라이즈 (AWS)Amazon Nova ProBedrock 생태계 통합
연구/재현성OLMo 2 (AI2)데이터+코드+가중치 완전 공개
문서 처리Solar Pro (Upstage)Document AI, OCR 강점

벤치마크 설명

벤치마크측정 영역설명
MMLU일반 지식57개 과목 객관식, 상위 모델 수렴으로 변별력 약화
GPQA DiamondPhD급 추론전문가 수준 과학/수학 문제
SWE-bench Verified실전 코딩실제 GitHub 이슈 해결 능력
HumanEval코드 생성함수 구현 정확도
LiveCodeBench코딩 (동적)최신 코딩 문제로 지속 업데이트
AIME수학 추론미국 수학 올림피아드 문제
MATH-500수학 전반다양한 난이도 수학 문제
IFEval지시 따르기형식/제약 조건 준수도
Arena Elo인간 선호도Chatbot Arena 블라인드 투표 (600만+ 투표)

2026 트렌드

  • 모델 라우팅 시대: “최고의 모델”이 아닌 “작업별 최적 모델”을 선택하는 능력이 핵심
  • MMLU 포화: 상위 모델 88~93%로 수렴, SWE-bench/GPQA가 새로운 변별 기준
  • 가격 붕괴: 1년간 80% 하락, DeepSeek가 가격 경쟁 주도
  • 컨텍스트 경쟁: 1M → 2M → 10M 확대, 하지만 실효 컨텍스트는 50~65%
  • 탁월함의 분산: 단일 모델이 모든 영역 지배하는 시대 종료

관련 항목