개요
OmniCoder-9B는 Tesslate가 공개한 9B 파라미터 코딩 에이전트 모델. Qwen3.5-9B 위에 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro 등 프론티어 모델의 에이전트 궤적(trajectory) 42.5만 건을 LoRA 증류. Terminal-Bench 2.0에서 베이스 모델 대비 +61% 개선 달성. “9B 모델로도 에이전트 행동 패턴 학습 가능”을 실증.
- 개발: Tesslate
- 베이스 모델: Qwen3.5-9B (Gated Delta Networks 하이브리드)
- 라이선스: Apache 2.0
- 출처 영감: 2026-03-18 기사
핵심 전략: 프론티어 모델 행동 증류
프론티어 모델 (Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex, Gemini 3.1 Pro)
↓ 실제 에이전트로 동작
↓ Claude Code, OpenCode, Codex, Droid 환경
↓ 궤적(trajectory) 수집
↓
[42.5만 건 학습 데이터]
- 파일 읽기 → 에러 만남 → 진단 해석 → 수정 적용
- read-before-write 패턴
- LSP 진단 반응
- 최소 diff 적용
↓ LoRA 미세조정
Qwen3.5-9B → OmniCoder-9B
“궤적”의 의미: 단순 코드 결과물 ❌ → 에이전트의 전체 작업 과정 ✅
코드 생성 vs 에이전트 행동
| 능력 | 측정 벤치마크 | 학습 방식 |
|---|---|---|
| 코드 생성 | HumanEval, MBPP | 일반 코드 데이터셋 |
| 에이전트 행동 | Terminal-Bench, SWE-bench | 궤적 데이터 |
체화해야 하는 패턴:
- read-before-write: 파일 먼저 읽고 수정
- LSP 반응: 진단 메시지 해석 후 수정
- 최소 diff: 전체 재작성 ❌ → 정확한 수정 ✅
- 에러 복구: 실패 후 진단·재시도
벤치마크 결과
Terminal-Bench 2.0 (핵심 결과 ⭐)
| 모델 | 점수 | 파라미터 |
|---|---|---|
| Qwen3.5-9B (베이스) | 14.6% | 9B |
| OmniCoder-9B | 23.6% | 9B |
| GPT-OSS-120B | 27% | 120B |
- 베이스 대비 +9pp (+61% 개선)
- 13배 큰 GPT-OSS-120B와 격차 적음
- ⚠️ 절대 점수 23.6%는 여전히 낮음 → 프로덕션엔 갈 길 멈
GPQA Diamond (대학원 과학)
| 모델 | pass@1 |
|---|---|
| Qwen3.5-9B | 81.7% |
| OmniCoder-9B | 83.8% |
| Qwen3-Next-80B | 77.2% |
- 9B 모델이 80B 모델 능가
AIME 2025 (수학)
| 모델 | pass@5 |
|---|---|
| Qwen3.5-9B | 91.7% |
| OmniCoder-9B | 90% |
- 약간 낮지만 거의 동등 → “코딩 에이전트 미세조정이 수학 추론을 훼손하지 않음” 정도로 해석
⚠️ 빠진 벤치마크
- SWE-bench: 업계 표준 코딩 에이전트 벤치마크 결과 없음
- → 다른 코딩 에이전트 모델과 직접 비교 어려움
아키텍처: Gated Delta Networks 하이브리드
베이스 Qwen3.5-9B의 특징:
[표준 어텐션 레이어] ← 시퀀스 길이² 연산, 정밀한 주의
↕ 교차 배치
[Gated Delta Networks] ← 시퀀스 길이 선형 연산, 긴 컨텍스트 효율
- 장점: 긴 컨텍스트 효율 + 정밀 어텐션 동시 확보
- 컨텍스트 윈도우: 네이티브 262K 토큰
- 코딩 에이전트에 핵심: 다중 파일·에러 로그·이전 작업 동시 참조 필요
학습 방법론
| 항목 | 값 |
|---|---|
| 기법 | LoRA (Low-Rank Adaptation) |
| rank | 64 |
| alpha | 32 |
| GPU | NVIDIA H200 × 4대 |
| 분산 전략 | DDP (Distributed Data Parallel) |
| 프레임워크 | Axolotl |
| 샘플 패킹 효율 | 99.35% |
| 데이터 | 42.5만 건 에이전트 궤적 |
효율성 의미
- H200 4대 → 클라우드 시간당 수십 달러 수준
- LoRA → 풀 파인튜닝 대비 자원 大폭 절감
- 소규모 팀·스타트업도 재현 가능한 규모
윤리·법적 이슈
⚠️ 학습 데이터 출처 문제
OpenAI / Anthropic 이용 약관:
"자사 모델 출력물로 경쟁 모델 학습 ❌"
OmniCoder-9B의 Apache 2.0 공개:
사용자 입장 자유롭지만,
학습 데이터(Claude/GPT 궤적) 출처는 별개 논의
이는 프론티어 모델 증류의 보편적 딜레마 — “민주화” vs “약관 위반”
실무적 가치
1. 로컬 코딩 에이전트 가능성
- 9B 모델 + 4비트 양자화 → 16GB VRAM GPU에서 구동
- GGUF 양자화 버전 제공 → 일반 소비자 GPU 가능
- API 비용 0원, 보안·오프라인 환경 강점
2. 에이전트 스캐폴딩 호환성
학습 데이터 출처가 실제 에이전트 환경:
- Claude Code
- OpenCode
- Codex
- Droid
→ 이런 프레임워크의 백엔드 모델로 끼워 넣어도 자연스럽게 동작할 가능성
3. 레시피로서의 가치
"프론티어 모델 에이전트 궤적 → LoRA 증류 → 소형 에이전트"
이 방법론 자체가 다른 도메인에 적용 가능:
- 데이터 분석 에이전트
- DevOps 자동화 에이전트
- 보안 리뷰 에이전트
- 데이터 엔지니어링 에이전트
더 큰 흐름: “에이전트 행동의 민주화”
이전:
에이전트 코딩 = 프론티어 모델 전유물 (Claude, GPT-5급)
높은 API 비용, 클라우드 의존
지금 (OmniCoder-9B 같은 사례):
소형 모델도 에이전트 행동 학습 가능
로컬 실행, 비용 민감 환경 대응
오픈소스 생태계 활성화
한계 & 평가
잘한 점
- 9B로 80B/120B 모델과 경쟁
- 효율적 학습 (LoRA, H200 4대)
- 에이전트 행동 패턴 직접 증류
- Apache 2.0 공개
아쉬운 점
- Terminal-Bench 2.0 절대 점수 23.6% → 프로덕션 갈 길 멈
- SWE-bench 결과 없음 → 직접 비교 어려움
- 학습 데이터 출처 윤리 이슈
- 프론티어 모델 자체를 대체할 수준은 아님
결론
“프론티어 모델을 대체할 수준은 아니지만, 9B 파라미터로도 에이전트 행동 패턴을 효과적으로 학습할 수 있다는 것을 실증한 점에서 오픈소스 코딩 에이전트 생태계의 의미 있는 이정표.”
핵심 시사점: 모델 크기 < 학습 데이터의 질 — 어떤 데이터로 학습했느냐가 결정적.