개요

OpenRouter100조 토큰 이상의 실제 LLM 사용 데이터를 분석한 대규모 실증 보고서. 300+ 모델, 60+ 제공업체, 수백만 사용자 데이터 기반. 핵심 발견: 에이전틱 추론이 새 기본값, 오픈소스 30%, 롤플레이가 생산성만큼 큰 축, 중형 모델이 새 소형, “유리 구두” 효과로 모델-워크로드 적합성이 핵심 경쟁력.

  • 출처: openrouter.ai (2025~2026)
  • 분석 기간: 약 20개월 (2024.11~2025.11 중심)
  • 데이터: 익명화 요청 메타데이터 (프롬프트 텍스트 미접근)

6가지 핵심 발견

1. 오픈소스 모델 → 30% 도달

성장: 미미 → 약 30% (2025 말)
동력: DeepSeek V3, Kimi K2, Qwen 시리즈
중국 모델: 주간 1.2% → 최대 30%, 연평균 13%

OSS 토큰 상위 기여자:

모델총 토큰
DeepSeek14.37조
Qwen5.59조
Meta LLaMA3.96조
Mistral2.92조

→ 단일 모델이 25% 초과 ❌, 5~7개 모델 분산 → “거의 독점 → 다원화”

2. 에이전틱 추론 = 새 기본값 ⭐

추론 모델 토큰 점유율: 미미 → 50%+ (2025 말)

동력:
  - o1 급 추론 모델 출현
  - GPT-5, Claude 4.5, Gemini 3 등
  - 다단계 논리, 에이전트 워크플로우 선호

도구 호출: 지속 증가
프롬프트 토큰: 1.5K → 6K+ (4×)
완성 토큰: 150 → 400 (3×)
시퀀스 길이: 2K → 5.4K+ (3×)

해석:
  중간 LLM 요청 = 더 이상 단순 질문 ❌
  → "구조화된 에이전트 유사 루프의 일부" ✅

3. 롤플레이가 예상보다 큰 축

OSS 모델 사용 분포:
  롤플레이: ~52% ⭐ (예상 대비 압도적)
  프로그래밍: 두 번째

생산성 중심 가정과 상반:
  - 오픈 모델 = 콘텐츠 필터 덜 제약
  - 판타지·엔터테인먼트·캐릭터 엔진에 매력적
  - 60%가 Games/Roleplaying Games

→ 관련: FOMO 무기화와 기술 조기 채택 (“기술의 실제 사용처는 예상과 다를 수 있다”)

4. 중형 모델이 “새 소형”

모델 크기 분류:
  소형: <15B  → 점유율 하락 ↓
  중형: 15~70B → 새 주류 ⭐
  대형: >70B  → 다원화

전환점: 2024.11 Qwen2.5 Coder 32B
이후: Mistral Small 3, GPT-OSS 20B 등

해석:
  사용자가 역량과 효율성의 균형 추구
  → "가장 작은" ❌ "가장 효율적인" ✅

5. 프로그래밍 = 가장 빠르게 성장

프로그래밍 카테고리:
  2025 초: ~11%
  최근: 50%+ ⭐

제공업체별:
  Claude: 프로그래밍 지출 60%+ 장악
  xAI: 프로그래밍 80%+ (최근 다양화)
  Qwen: 40~60% 일관

프로그래밍 프롬프트:
  평균 20K+ 입력 토큰 (다른 카테고리 대비 3~4×)

6. “유리 구두” 효과 ⭐

신데렐라 현상:
  - 초기 사용자 코호트 = 장기 높은 유지율
  - "기초 코호트"가 워크로드-모델 적합성 달성 시 강한 락인

사례:
  Gemini 2.5 Pro (2025-06 코호트): 5개월 차 ~40% 유지
  Claude 4 Sonnet (2025-05 코호트): 5개월 차 ~40% 유지
  GPT-4o Mini (2024-07 코호트): 출시 시 지배적 적합성

실패 사례:
  Gemini 2.0 Flash, Llama 4 Maverick: 기초 코호트 미형성
  → "프론티어"로 인식 못 됨

DeepSeek 부메랑 효과:
  대안 시도 후 다시 돌아오는 사용자 관찰

함의:
  "첫 번째로 문제를 해결하는 것 = 지속적 우위"
  프론티어 윈도우는 좁고 일시적이지만 결정적

카테고리별 사용 분석

4사분면 프레임워크 (비용 vs 사용)

사분면비용사용량카테고리
프리미엄 워크로드Technology, Science
대중 시장 볼륨Programming, Roleplay
전문 전문가Finance, Academia, Health
니치 유틸리티Translation, Legal, Trivia

Programming = “킬러 프로페셔널” (최고 사용량 + 최적화된 중간 비용)

제공업체별 프로필

제공업체주 용도
Anthropic프로그래밍+기술 80%+ ⭐
xAI프로그래밍 80%+ (최근 다양화)
Qwen프로그래밍 40~60%
Google다양 (번역, 과학, 기술, 코딩 ~18%)
OpenAI프로그래밍+기술 각 29% (과학 감소)
DeepSeek롤플레이+엔터테인먼트 2/3+

지역별 분석

대륙별 지출 분포

대륙점유율
북미47.22%
아시아28.61% (13% → 31%로 2배+)
유럽21.32%
남미1.21%
오세아니아1.18%
아프리카0.46%

상위 10개국

국가점유율
🇺🇸 미국47.17%
🇸🇬 싱가포르9.21%
🇩🇪 독일7.51%
🇨🇳 중국6.01%
🇰🇷 한국2.88%
🇳🇱 네덜란드2.65%
🇬🇧 영국2.52%
🇨🇦 캐나다1.90%
🇯🇵 일본1.77%
🇮🇳 인도1.62%

언어 분포

언어비율
영어82.87%
중국어 간체4.95%
러시아어2.47%
스페인어1.43%
태국어1.03%
기타7.25%

비용 vs 사용 역학

4가지 사용-비용 아키타입

아키타입예시특징
프리미엄 리더Claude 3.7/4 Sonnet~$2/M, 높은 사용량
효율적 거인Gemini 2.0 Flash, DeepSeek V3<$0.40/M, 유사한 사용량
롱테일Qwen 2 7B, IBM Granite Micro수 센트/M, 낮은 사용량
프리미엄 전문가GPT-4, GPT-5 Pro~$35/M, 고위험 한정

Jevons 역설 확인

매우 저렴·빠른 모델 → 더 많은 작업에 사용 → 총 토큰 소비 증가
  = 효율성 ↑ → 수요 ↑ → 총 비용 ↑

품질이 비용 능가:
  비싼 모델(Claude, GPT-4)이 높은 사용량 유지
  → 모델이 현저히 우수하면 사용자가 높은 비용 감수

핵심 시사점

1. 에이전틱 추론 = 새 기본값
   - 단순 Q&A → 다단계 에이전트 루프
   - 도구 호출·추론·오케스트레이션이 핵심

2. 멀티모델 생태계 = 구조적
   - 단일 모델 지배 ❌
   - 역량·지연·가격·신뢰 축으로 선택

3. 롤플레이의 크기
   - OSS 사용의 50%+
   - 엔터테인먼트·소비자 AI의 과소평가

4. 모델-워크로드 적합성 = 경쟁력
   - "유리 구두" 효과
   - 첫 번째로 문제 해결 = 지속적 우위

5. 아시아 부상
   - 13% → 31%, 2배+ 성장
   - 중국 = 모델 개발자 + 수출자 + 소비자

6. "중형이 새 소형"
   - 15~70B가 최적 균형
   - 소형은 쇠퇴, 대형은 분화

다른 노트와의 연결

노트연결
LLM Model Comparison모델 성능 비교
Open Source LLMOSS 30% 도달
OmniCoder-9B소형 모델의 가치
1-bit LLM & Bonsai효율 경쟁
Cursor Composer 2 = Kimi K2.5 RL 사건Kimi K2 성장
크래프톤 Raon (라온)한국 AI 생태계 (2.88%)
코딩 에이전트 하니스 & Hashline에이전틱 추론
AI 시대 실행 비용 붕괴비용 역학
FOMO 무기화와 기술 조기 채택실제 사용 vs 기대

관련 항목