개요

OmniCoder-9B는 Tesslate가 공개한 9B 파라미터 코딩 에이전트 모델. Qwen3.5-9B 위에 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro 등 프론티어 모델의 에이전트 궤적(trajectory) 42.5만 건을 LoRA 증류. Terminal-Bench 2.0에서 베이스 모델 대비 +61% 개선 달성. “9B 모델로도 에이전트 행동 패턴 학습 가능”을 실증.

  • 개발: Tesslate
  • 베이스 모델: Qwen3.5-9B (Gated Delta Networks 하이브리드)
  • 라이선스: Apache 2.0
  • 출처 영감: 2026-03-18 기사

핵심 전략: 프론티어 모델 행동 증류

프론티어 모델 (Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex, Gemini 3.1 Pro)
  ↓ 실제 에이전트로 동작
  ↓ Claude Code, OpenCode, Codex, Droid 환경
  ↓ 궤적(trajectory) 수집
  ↓
[42.5만 건 학습 데이터]
  - 파일 읽기 → 에러 만남 → 진단 해석 → 수정 적용
  - read-before-write 패턴
  - LSP 진단 반응
  - 최소 diff 적용
  ↓ LoRA 미세조정
Qwen3.5-9B → OmniCoder-9B

“궤적”의 의미: 단순 코드 결과물 ❌ → 에이전트의 전체 작업 과정


코드 생성 vs 에이전트 행동

능력측정 벤치마크학습 방식
코드 생성HumanEval, MBPP일반 코드 데이터셋
에이전트 행동Terminal-Bench, SWE-bench궤적 데이터

체화해야 하는 패턴:

  • read-before-write: 파일 먼저 읽고 수정
  • LSP 반응: 진단 메시지 해석 후 수정
  • 최소 diff: 전체 재작성 ❌ → 정확한 수정 ✅
  • 에러 복구: 실패 후 진단·재시도

벤치마크 결과

Terminal-Bench 2.0 (핵심 결과 ⭐)

모델점수파라미터
Qwen3.5-9B (베이스)14.6%9B
OmniCoder-9B23.6%9B
GPT-OSS-120B27%120B
  • 베이스 대비 +9pp (+61% 개선)
  • 13배 큰 GPT-OSS-120B와 격차 적음
  • ⚠️ 절대 점수 23.6%는 여전히 낮음 → 프로덕션엔 갈 길 멈

GPQA Diamond (대학원 과학)

모델pass@1
Qwen3.5-9B81.7%
OmniCoder-9B83.8%
Qwen3-Next-80B77.2%
  • 9B 모델이 80B 모델 능가

AIME 2025 (수학)

모델pass@5
Qwen3.5-9B91.7%
OmniCoder-9B90%
  • 약간 낮지만 거의 동등 → “코딩 에이전트 미세조정이 수학 추론을 훼손하지 않음” 정도로 해석

⚠️ 빠진 벤치마크

  • SWE-bench: 업계 표준 코딩 에이전트 벤치마크 결과 없음
  • → 다른 코딩 에이전트 모델과 직접 비교 어려움

아키텍처: Gated Delta Networks 하이브리드

베이스 Qwen3.5-9B의 특징:

[표준 어텐션 레이어]    ← 시퀀스 길이² 연산, 정밀한 주의
  ↕ 교차 배치
[Gated Delta Networks] ← 시퀀스 길이 선형 연산, 긴 컨텍스트 효율
  • 장점: 긴 컨텍스트 효율 + 정밀 어텐션 동시 확보
  • 컨텍스트 윈도우: 네이티브 262K 토큰
  • 코딩 에이전트에 핵심: 다중 파일·에러 로그·이전 작업 동시 참조 필요

학습 방법론

항목
기법LoRA (Low-Rank Adaptation)
rank64
alpha32
GPUNVIDIA H200 × 4대
분산 전략DDP (Distributed Data Parallel)
프레임워크Axolotl
샘플 패킹 효율99.35%
데이터42.5만 건 에이전트 궤적

효율성 의미

  • H200 4대 → 클라우드 시간당 수십 달러 수준
  • LoRA → 풀 파인튜닝 대비 자원 大폭 절감
  • 소규모 팀·스타트업도 재현 가능한 규모

윤리·법적 이슈

⚠️ 학습 데이터 출처 문제

OpenAI / Anthropic 이용 약관:
  "자사 모델 출력물로 경쟁 모델 학습 ❌"

OmniCoder-9B의 Apache 2.0 공개:
  사용자 입장 자유롭지만,
  학습 데이터(Claude/GPT 궤적) 출처는 별개 논의

이는 프론티어 모델 증류의 보편적 딜레마 — “민주화” vs “약관 위반”


실무적 가치

1. 로컬 코딩 에이전트 가능성

  • 9B 모델 + 4비트 양자화 → 16GB VRAM GPU에서 구동
  • GGUF 양자화 버전 제공 → 일반 소비자 GPU 가능
  • API 비용 0원, 보안·오프라인 환경 강점

2. 에이전트 스캐폴딩 호환성

학습 데이터 출처가 실제 에이전트 환경:

  • Claude Code
  • OpenCode
  • Codex
  • Droid

→ 이런 프레임워크의 백엔드 모델로 끼워 넣어도 자연스럽게 동작할 가능성

3. 레시피로서의 가치

"프론티어 모델 에이전트 궤적 → LoRA 증류 → 소형 에이전트"

이 방법론 자체가 다른 도메인에 적용 가능:
- 데이터 분석 에이전트
- DevOps 자동화 에이전트
- 보안 리뷰 에이전트
- 데이터 엔지니어링 에이전트

더 큰 흐름: “에이전트 행동의 민주화”

이전:
  에이전트 코딩 = 프론티어 모델 전유물 (Claude, GPT-5급)
  높은 API 비용, 클라우드 의존

지금 (OmniCoder-9B 같은 사례):
  소형 모델도 에이전트 행동 학습 가능
  로컬 실행, 비용 민감 환경 대응
  오픈소스 생태계 활성화

한계 & 평가

잘한 점

  • 9B로 80B/120B 모델과 경쟁
  • 효율적 학습 (LoRA, H200 4대)
  • 에이전트 행동 패턴 직접 증류
  • Apache 2.0 공개

아쉬운 점

  • Terminal-Bench 2.0 절대 점수 23.6% → 프로덕션 갈 길 멈
  • SWE-bench 결과 없음 → 직접 비교 어려움
  • 학습 데이터 출처 윤리 이슈
  • 프론티어 모델 자체를 대체할 수준은 아님

결론

“프론티어 모델을 대체할 수준은 아니지만, 9B 파라미터로도 에이전트 행동 패턴을 효과적으로 학습할 수 있다는 것을 실증한 점에서 오픈소스 코딩 에이전트 생태계의 의미 있는 이정표.”

핵심 시사점: 모델 크기 < 학습 데이터의 질 — 어떤 데이터로 학습했느냐가 결정적.


관련 항목