OpenRouter가 100조 토큰 이상의 실제 LLM 사용 데이터를 분석한 대규모 실증 보고서. 300+ 모델, 60+ 제공업체, 수백만 사용자 데이터 기반. 핵심 발견: 에이전틱 추론이 새 기본값, 오픈소스 30%, 롤플레이가 생산성만큼 큰 축, 중형 모델이 새 소형, “유리 구두” 효과로 모델-워크로드 적합성이 핵심 경쟁력.
출처: openrouter.ai (2025~2026)
분석 기간: 약 20개월 (2024.11~2025.11 중심)
데이터: 익명화 요청 메타데이터 (프롬프트 텍스트 미접근)
6가지 핵심 발견
1. 오픈소스 모델 → 30% 도달
성장: 미미 → 약 30% (2025 말)
동력: DeepSeek V3, Kimi K2, Qwen 시리즈
중국 모델: 주간 1.2% → 최대 30%, 연평균 13%
OSS 토큰 상위 기여자:
모델
총 토큰
DeepSeek
14.37조
Qwen
5.59조
Meta LLaMA
3.96조
Mistral
2.92조
→ 단일 모델이 25% 초과 ❌, 5~7개 모델 분산 → “거의 독점 → 다원화”
2. 에이전틱 추론 = 새 기본값 ⭐
추론 모델 토큰 점유율: 미미 → 50%+ (2025 말)
동력:
- o1 급 추론 모델 출현
- GPT-5, Claude 4.5, Gemini 3 등
- 다단계 논리, 에이전트 워크플로우 선호
도구 호출: 지속 증가
프롬프트 토큰: 1.5K → 6K+ (4×)
완성 토큰: 150 → 400 (3×)
시퀀스 길이: 2K → 5.4K+ (3×)
해석:
중간 LLM 요청 = 더 이상 단순 질문 ❌
→ "구조화된 에이전트 유사 루프의 일부" ✅
3. 롤플레이가 예상보다 큰 축
OSS 모델 사용 분포:
롤플레이: ~52% ⭐ (예상 대비 압도적)
프로그래밍: 두 번째
생산성 중심 가정과 상반:
- 오픈 모델 = 콘텐츠 필터 덜 제약
- 판타지·엔터테인먼트·캐릭터 엔진에 매력적
- 60%가 Games/Roleplaying Games
모델 크기 분류:
소형: <15B → 점유율 하락 ↓
중형: 15~70B → 새 주류 ⭐
대형: >70B → 다원화
전환점: 2024.11 Qwen2.5 Coder 32B
이후: Mistral Small 3, GPT-OSS 20B 등
해석:
사용자가 역량과 효율성의 균형 추구
→ "가장 작은" ❌ "가장 효율적인" ✅
5. 프로그래밍 = 가장 빠르게 성장
프로그래밍 카테고리:
2025 초: ~11%
최근: 50%+ ⭐
제공업체별:
Claude: 프로그래밍 지출 60%+ 장악
xAI: 프로그래밍 80%+ (최근 다양화)
Qwen: 40~60% 일관
프로그래밍 프롬프트:
평균 20K+ 입력 토큰 (다른 카테고리 대비 3~4×)
6. “유리 구두” 효과 ⭐
신데렐라 현상:
- 초기 사용자 코호트 = 장기 높은 유지율
- "기초 코호트"가 워크로드-모델 적합성 달성 시 강한 락인
사례:
Gemini 2.5 Pro (2025-06 코호트): 5개월 차 ~40% 유지
Claude 4 Sonnet (2025-05 코호트): 5개월 차 ~40% 유지
GPT-4o Mini (2024-07 코호트): 출시 시 지배적 적합성
실패 사례:
Gemini 2.0 Flash, Llama 4 Maverick: 기초 코호트 미형성
→ "프론티어"로 인식 못 됨
DeepSeek 부메랑 효과:
대안 시도 후 다시 돌아오는 사용자 관찰
함의:
"첫 번째로 문제를 해결하는 것 = 지속적 우위"
프론티어 윈도우는 좁고 일시적이지만 결정적
카테고리별 사용 분석
4사분면 프레임워크 (비용 vs 사용)
사분면
비용
사용량
카테고리
프리미엄 워크로드
高
高
Technology, Science
대중 시장 볼륨
低
高
Programming, Roleplay
전문 전문가
高
低
Finance, Academia, Health
니치 유틸리티
低
低
Translation, Legal, Trivia
→ Programming = “킬러 프로페셔널” (최고 사용량 + 최적화된 중간 비용)
제공업체별 프로필
제공업체
주 용도
Anthropic
프로그래밍+기술 80%+ ⭐
xAI
프로그래밍 80%+ (최근 다양화)
Qwen
프로그래밍 40~60%
Google
다양 (번역, 과학, 기술, 코딩 ~18%)
OpenAI
프로그래밍+기술 각 29% (과학 감소)
DeepSeek
롤플레이+엔터테인먼트 2/3+
지역별 분석
대륙별 지출 분포
대륙
점유율
북미
47.22%
아시아
28.61% (13% → 31%로 2배+)
유럽
21.32%
남미
1.21%
오세아니아
1.18%
아프리카
0.46%
상위 10개국
국가
점유율
🇺🇸 미국
47.17%
🇸🇬 싱가포르
9.21%
🇩🇪 독일
7.51%
🇨🇳 중국
6.01%
🇰🇷 한국
2.88%
🇳🇱 네덜란드
2.65%
🇬🇧 영국
2.52%
🇨🇦 캐나다
1.90%
🇯🇵 일본
1.77%
🇮🇳 인도
1.62%
언어 분포
언어
비율
영어
82.87%
중국어 간체
4.95%
러시아어
2.47%
스페인어
1.43%
태국어
1.03%
기타
7.25%
비용 vs 사용 역학
4가지 사용-비용 아키타입
아키타입
예시
특징
프리미엄 리더
Claude 3.7/4 Sonnet
~$2/M, 높은 사용량
효율적 거인
Gemini 2.0 Flash, DeepSeek V3
<$0.40/M, 유사한 사용량
롱테일
Qwen 2 7B, IBM Granite Micro
수 센트/M, 낮은 사용량
프리미엄 전문가
GPT-4, GPT-5 Pro
~$35/M, 고위험 한정
Jevons 역설 확인
매우 저렴·빠른 모델 → 더 많은 작업에 사용 → 총 토큰 소비 증가
= 효율성 ↑ → 수요 ↑ → 총 비용 ↑
품질이 비용 능가:
비싼 모델(Claude, GPT-4)이 높은 사용량 유지
→ 모델이 현저히 우수하면 사용자가 높은 비용 감수
핵심 시사점
1. 에이전틱 추론 = 새 기본값
- 단순 Q&A → 다단계 에이전트 루프
- 도구 호출·추론·오케스트레이션이 핵심
2. 멀티모델 생태계 = 구조적
- 단일 모델 지배 ❌
- 역량·지연·가격·신뢰 축으로 선택
3. 롤플레이의 크기
- OSS 사용의 50%+
- 엔터테인먼트·소비자 AI의 과소평가
4. 모델-워크로드 적합성 = 경쟁력
- "유리 구두" 효과
- 첫 번째로 문제 해결 = 지속적 우위
5. 아시아 부상
- 13% → 31%, 2배+ 성장
- 중국 = 모델 개발자 + 수출자 + 소비자
6. "중형이 새 소형"
- 15~70B가 최적 균형
- 소형은 쇠퇴, 대형은 분화