개요
Claude Code 토큰 비용을 줄이는 모든 도구·기법 종합 정리. CLI 프록시·MCP 기반·출력 최적화·세션 관리·내장 기능·프롬프트 최적화까지 6개 레이어. 최적 조합 시 컨텍스트 ~58.5% 감소, 200K 윈도우를 ~350K 실효 용량으로 확장 가능.
한눈에 보는 도구 비교 (TOP 10)
| 도구 | 방식 | 절약률 | 대상 | Linux |
|---|---|---|---|---|
| RTK ⭐ | CLI 출력 필터 | 60-90% | 셸 명령 출력 | ✅ |
| Context Mode | MCP + SQLite/BM25 | ~98% | 도구 출력 | ✅ |
| MCPlex | MCP 게이트웨이 | 96.9% | tools/list | ✅ |
| Headroom | AST 압축기 | 87% | JSON/코드/텍스트 | ✅ |
| Caveman | 시스템 프롬프트 | 45-75% | 출력 토큰 | ✅ |
| claude-token-efficient | CLAUDE.md | ~63% | 출력 토큰 | ✅ |
| MCP Gateway | 지연 로딩 | ~95% | MCP 스키마 | ✅ |
| Serena MCP | LSP 심볼 탐색 | ~70% | 파일 읽기 | ✅ |
| mcp-compressor (Atlassian) | 도구 정의 압축 | 70-97% | MCP 도구 | ✅ |
| Token Optimizer | 고스트 토큰 제거 | 50K/msg | 세션 관리 | ✅ |
A. CLI 프록시/필터 도구
1. RTK (Rust Token Killer) ⭐⭐⭐
GitHub: https://github.com/rtk-ai/rtk
Stars: 30,600+ | 언어: Rust | 라이선스: MIT
플랫폼: macOS ✅ Linux ✅ Windows(WSL) ✅
동작 원리:
일반: Claude → git status → 원본 출력 (~2,000 토큰)
RTK: Claude → git status → RTK 가로챔 → 필터링 (~200 토큰)
4가지 전략:
1. 스마트 필터링: 노이즈 제거 (주석, 공백, 보일러플레이트)
2. 그룹핑: 유사 항목 통합
3. 트렁케이션: 관련 부분만 유지
4. 중복 제거: 반복 라인 → 횟수 축약
30분 세션 절약 예시:
| 명령어 | 원본 | RTK 후 | 절약 |
|---|---|---|---|
| ls/tree (10회) | 2,000 | 400 | -80% |
| cat/read (20회) | 40,000 | 12,000 | -70% |
| grep/rg (8회) | 16,000 | 3,200 | -80% |
| git status (10회) | 3,000 | 600 | -80% |
| git diff (5회) | 10,000 | 2,500 | -75% |
| npm test (5회) | 25,000 | 2,500 | -90% |
| 합계 | ~118K | ~24K | ~80% |
설치 (Linux):
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/master/install.sh | sh
rtk init -g # Claude Code hook 설치
# Claude Code 재시작 → 자동 적용
rtk gain # 절약 통계 확인
rtk gain --graph # 30일 절약 추이 그래프
rtk discover # 놓친 절약 기회 분석지원 명령어: ls, find, grep, diff, git (status/log/diff/add/commit/push), gh (PR/issue), Jest/Vitest/Playwright/pytest/cargo test, ESLint/tsc/Next.js, Docker, kubectl, AWS CLI
지원 AI 도구 12개: Claude Code, Cursor, Codex, Gemini CLI, Windsurf, GitHub Copilot, OpenCode, OpenClaw, Kilo Code 등
2. Headroom
GitHub: https://github.com/chopratejas/headroom
절약률: 87% (10,144 → 1,260 토큰)
3단계 압축:
- CacheAligner: 반복 콘텐츠 캐시 정렬
- ContentRouter: JSON/코드/텍스트별 최적 전략
- CCR: AST 기반 코드 압축기
pip install "headroom-ai[all]"
headroom wrap claude # Claude Code 통합B. MCP 기반 도구
3. Context Mode ⭐⭐
GitHub: https://github.com/mksglu/context-mode
절약률: ~98% (315KB → 5.4KB)
도구 출력을 SQLite/FTS5에 저장 → BM25 랭킹으로 필요한 부분만 반환
4. MCPlex ⭐
GitHub: https://github.com/modernops888/mcplex
절약률: 96.9% (tools/list 응답)
N개 MCP 서버를 1개 게이트웨이로 통합, 스키마 최적화
5. MCP Gateway (지연 로딩)
GitHub: https://github.com/RaiAnsar/mcp-gateway
절약률: ~95% (100-300개 도구 → 4개만 노출)
미사용 MCP 서버를 시작하지 않음
6. mcp-compressor (Atlassian)
GitHub: https://github.com/atlassian-labs/mcp-compressor
절약률: 70-97% (도구 정의 토큰)
수십 개 도구를 2개 래퍼 도구로 대체 (get_tool_schema + invoke_tool)
7. Serena MCP
GitHub: https://github.com/oraios/serena
절약률: ~70% (파일 읽기 대체)
LSP 기반 심볼 수준 탐색 — 전체 파일 ❌, 필요한 심볼만 ✅
8. claude-context (Zilliz)
GitHub: https://github.com/zilliztech/claude-context
절약률: ~40%
AST 청킹 + BM25/벡터 하이브리드 검색
C. 출력 토큰 최적화
9. Caveman ⭐⭐
GitHub: https://github.com/JuliusBrussee/caveman
절약률: 45-75% (출력 토큰)
시스템 프롬프트 리라이트 → 간결한 응답 강제 (관사, 필러, 인사말 제거)
10. claude-token-efficient ⭐
GitHub: https://github.com/drona23/claude-token-efficient
절약률: ~63% (출력 토큰)
Drop-in CLAUDE.md 파일 — 아첨·재진술·불필요한 제안 금지
D. 세션/컨텍스트 관리
11. Token Optimizer
GitHub: https://github.com/alexgreensh/token-optimizer
절약: "고스트 토큰" 제거 (50K × 100msg = 5M 낭비 방지)
컴팩션 전 체크포인트, 세션 복원, 대시보드
12. MCP-Memory-Service
GitHub: https://github.com/doobidoo/mcp-memory-service
절약: 5K-20K 토큰/세션
크로스 세션 메모리 → 반복 탐색 방지
E. Claude Code 내장 기능
| 기능 | 방법 | 효과 |
|---|---|---|
| 프롬프트 캐싱 | 자동 (5분 TTL) | 반복 콘텐츠 90% 비용 ↓ |
| 자동 컴팩션 | CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=60 | 사전 요약 |
| 모델 전환 | /model (Sonnet/Haiku) | 비용 대폭 ↓ |
| MCP 지연 로딩 | 기본 활성화 | 미사용 서버 10K-17K 절약 |
| 서브에이전트 | haiku 모델 위임 | 대용량 출력 작업 |
| PreToolUse hook | settings.json | 명령 출력 사전 필터 |
| 코드 인텔리전스 | LSP 플러그인 | grep+read 대체 |
F. CLAUDE.md / 프롬프트 최적화
| 기법 | 효과 |
|---|---|
| CLAUDE.md 200줄 이하 유지 | 기본 컨텍스트 ↓ |
| 구체적 프롬프트 (“auth.ts의 login 함수”) | 불필요 탐색 ↓ |
/clear로 작업 전환 | 누적 토큰 ↓ |
| 80% 규칙 (복잡한 작업은 80% 이내) | 품질 유지 |
| Plan 모드 (Shift+Tab) | 재작업 방지 |
/effort 조절 | 간단한 작업 출력 ↓ |
6-Layer 최적 조합 ⭐⭐⭐
| Layer | 도구 | 대상 | 절약 |
|---|---|---|---|
| 1 | RTK | CLI 출력 | 60-90% |
| 2 | Context Mode | 도구 출력 | ~98% |
| 3 | MCPlex | tools/list | 96.9% |
| 4 | Caveman | LLM 출력 | 20-40% |
| 5 | MCP-Context-Provider | 컨텍스트 조회 | 1K-5K/조회 |
| 6 | MCP-Memory-Service | 세션 메모리 | 5K-20K/세션 |
종합: ~58.5% 컨텍스트 감소 → 200K 윈도우를 ~350K 실효 용량으로
지금 바로 적용 추천 (Ubuntu, 효과순)
# 1. RTK (최우선, 80% 절약)
curl -fsSL https://raw.githubusercontent.com/rtk-ai/rtk/master/install.sh | sh
rtk init -g
# 2. Caveman (출력 45-75% 절약)
# Claude Code 스킬로 설치
# 3. CLAUDE.md 최적화
# claude-token-efficient 참고하여 간결화
# 4. 내장 기능 활용
export CLAUDE_AUTOCOMPACT_PCT_OVERRIDE=60 # 60%에서 proactive compact
# 5. 미사용 MCP 서버 비활성화
# /mcp 확인 후 필요 없는 것 제거→ 1~3번만 해도 체감 비용 50%+ 절감