OpenRouter AI 현황 보고서 (100조 토큰)

개요

OpenRouter가 100조 토큰 이상의 실제 LLM 사용 데이터를 분석한 대규모 실증 보고서. 300+ 모델, 60+ 제공업체, 수백만 사용자 데이터 기반. 핵심 발견: 에이전틱 추론이 새 기본값, 오픈소스 30%, 롤플레이가 생산성만큼 큰 축, 중형 모델이 새 소형, “유리 구두” 효과로 모델-워크로드 적합성이 핵심 경쟁력.

출처: openrouter.ai (2025~2026)
분석 기간: 약 20개월 (2024.11~2025.11 중심)
데이터: 익명화 요청 메타데이터 (프롬프트 텍스트 미접근)

6가지 핵심 발견

1. 오픈소스 모델 → 30% 도달

성장: 미미 → 약 30% (2025 말)
동력: DeepSeek V3, Kimi K2, Qwen 시리즈
중국 모델: 주간 1.2% → 최대 30%, 연평균 13%

OSS 토큰 상위 기여자:

모델	총 토큰
DeepSeek	14.37조
Qwen	5.59조
Meta LLaMA	3.96조
Mistral	2.92조

→ 단일 모델이 25% 초과 ❌, 5~7개 모델 분산 → “거의 독점 → 다원화”

2. 에이전틱 추론 = 새 기본값 ⭐

추론 모델 토큰 점유율: 미미 → 50%+ (2025 말)

동력:
  - o1 급 추론 모델 출현
  - GPT-5, Claude 4.5, Gemini 3 등
  - 다단계 논리, 에이전트 워크플로우 선호

도구 호출: 지속 증가
프롬프트 토큰: 1.5K → 6K+ (4×)
완성 토큰: 150 → 400 (3×)
시퀀스 길이: 2K → 5.4K+ (3×)

해석:
  중간 LLM 요청 = 더 이상 단순 질문 ❌
  → "구조화된 에이전트 유사 루프의 일부" ✅

3. 롤플레이가 예상보다 큰 축

OSS 모델 사용 분포:
  롤플레이: ~52% ⭐ (예상 대비 압도적)
  프로그래밍: 두 번째

생산성 중심 가정과 상반:
  - 오픈 모델 = 콘텐츠 필터 덜 제약
  - 판타지·엔터테인먼트·캐릭터 엔진에 매력적
  - 60%가 Games/Roleplaying Games

→ 관련: FOMO 무기화와 기술 조기 채택 (“기술의 실제 사용처는 예상과 다를 수 있다”)

4. 중형 모델이 “새 소형”

모델 크기 분류:
  소형: <15B  → 점유율 하락 ↓
  중형: 15~70B → 새 주류 ⭐
  대형: >70B  → 다원화

전환점: 2024.11 Qwen2.5 Coder 32B
이후: Mistral Small 3, GPT-OSS 20B 등

해석:
  사용자가 역량과 효율성의 균형 추구
  → "가장 작은" ❌ "가장 효율적인" ✅

5. 프로그래밍 = 가장 빠르게 성장

프로그래밍 카테고리:
  2025 초: ~11%
  최근: 50%+ ⭐

제공업체별:
  Claude: 프로그래밍 지출 60%+ 장악
  xAI: 프로그래밍 80%+ (최근 다양화)
  Qwen: 40~60% 일관

프로그래밍 프롬프트:
  평균 20K+ 입력 토큰 (다른 카테고리 대비 3~4×)

6. “유리 구두” 효과 ⭐

신데렐라 현상:
  - 초기 사용자 코호트 = 장기 높은 유지율
  - "기초 코호트"가 워크로드-모델 적합성 달성 시 강한 락인

사례:
  Gemini 2.5 Pro (2025-06 코호트): 5개월 차 ~40% 유지
  Claude 4 Sonnet (2025-05 코호트): 5개월 차 ~40% 유지
  GPT-4o Mini (2024-07 코호트): 출시 시 지배적 적합성

실패 사례:
  Gemini 2.0 Flash, Llama 4 Maverick: 기초 코호트 미형성
  → "프론티어"로 인식 못 됨

DeepSeek 부메랑 효과:
  대안 시도 후 다시 돌아오는 사용자 관찰

함의:
  "첫 번째로 문제를 해결하는 것 = 지속적 우위"
  프론티어 윈도우는 좁고 일시적이지만 결정적

카테고리별 사용 분석

4사분면 프레임워크 (비용 vs 사용)

사분면	비용	사용량	카테고리
프리미엄 워크로드	高	高	Technology, Science
대중 시장 볼륨	低	高	Programming, Roleplay
전문 전문가	高	低	Finance, Academia, Health
니치 유틸리티	低	低	Translation, Legal, Trivia

→ Programming = “킬러 프로페셔널” (최고 사용량 + 최적화된 중간 비용)

제공업체별 프로필

제공업체	주 용도
Anthropic	프로그래밍+기술 80%+ ⭐
xAI	프로그래밍 80%+ (최근 다양화)
Qwen	프로그래밍 40~60%
Google	다양 (번역, 과학, 기술, 코딩 ~18%)
OpenAI	프로그래밍+기술 각 29% (과학 감소)
DeepSeek	롤플레이+엔터테인먼트 2/3+

지역별 분석

대륙별 지출 분포

대륙	점유율
북미	47.22%
아시아	28.61% (13% → 31%로 2배+)
유럽	21.32%
남미	1.21%
오세아니아	1.18%
아프리카	0.46%

상위 10개국

국가	점유율
🇺🇸 미국	47.17%
🇸🇬 싱가포르	9.21%
🇩🇪 독일	7.51%
🇨🇳 중국	6.01%
🇰🇷 한국	2.88%
🇳🇱 네덜란드	2.65%
🇬🇧 영국	2.52%
🇨🇦 캐나다	1.90%
🇯🇵 일본	1.77%
🇮🇳 인도	1.62%

언어 분포

언어	비율
영어	82.87%
중국어 간체	4.95%
러시아어	2.47%
스페인어	1.43%
태국어	1.03%
기타	7.25%

비용 vs 사용 역학

4가지 사용-비용 아키타입

아키타입	예시	특징
프리미엄 리더	Claude 3.7/4 Sonnet	~$2/M, 높은 사용량
효율적 거인	Gemini 2.0 Flash, DeepSeek V3	<$0.40/M, 유사한 사용량
롱테일	Qwen 2 7B, IBM Granite Micro	수 센트/M, 낮은 사용량
프리미엄 전문가	GPT-4, GPT-5 Pro	~$35/M, 고위험 한정

Jevons 역설 확인

매우 저렴·빠른 모델 → 더 많은 작업에 사용 → 총 토큰 소비 증가
  = 효율성 ↑ → 수요 ↑ → 총 비용 ↑

품질이 비용 능가:
  비싼 모델(Claude, GPT-4)이 높은 사용량 유지
  → 모델이 현저히 우수하면 사용자가 높은 비용 감수

핵심 시사점

1. 에이전틱 추론 = 새 기본값
   - 단순 Q&A → 다단계 에이전트 루프
   - 도구 호출·추론·오케스트레이션이 핵심

2. 멀티모델 생태계 = 구조적
   - 단일 모델 지배 ❌
   - 역량·지연·가격·신뢰 축으로 선택

3. 롤플레이의 크기
   - OSS 사용의 50%+
   - 엔터테인먼트·소비자 AI의 과소평가

4. 모델-워크로드 적합성 = 경쟁력
   - "유리 구두" 효과
   - 첫 번째로 문제 해결 = 지속적 우위

5. 아시아 부상
   - 13% → 31%, 2배+ 성장
   - 중국 = 모델 개발자 + 수출자 + 소비자

6. "중형이 새 소형"
   - 15~70B가 최적 균형
   - 소형은 쇠퇴, 대형은 분화

다른 노트와의 연결

노트	연결
LLM Model Comparison	모델 성능 비교
Open Source LLM	OSS 30% 도달
OmniCoder-9B	소형 모델의 가치
1-bit LLM & Bonsai	효율 경쟁
Cursor Composer 2 = Kimi K2.5 RL 사건	Kimi K2 성장
크래프톤 Raon (라온)	한국 AI 생태계 (2.88%)
코딩 에이전트 하니스 & Hashline	에이전틱 추론
AI 시대 실행 비용 붕괴	비용 역학
FOMO 무기화와 기술 조기 채택	실제 사용 vs 기대

Bigstones

Explorer