OmniCoder-9B

개요

OmniCoder-9B는 Tesslate가 공개한 9B 파라미터 코딩 에이전트 모델. Qwen3.5-9B 위에 Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro 등 프론티어 모델의 에이전트 궤적(trajectory) 42.5만 건을 LoRA 증류. Terminal-Bench 2.0에서 베이스 모델 대비 +61% 개선 달성. “9B 모델로도 에이전트 행동 패턴 학습 가능”을 실증.

개발: Tesslate
베이스 모델: Qwen3.5-9B (Gated Delta Networks 하이브리드)
라이선스: Apache 2.0
출처 영감: 2026-03-18 기사

핵심 전략: 프론티어 모델 행동 증류

프론티어 모델 (Claude Opus 4.6, GPT-5.4, GPT-5.3-Codex, Gemini 3.1 Pro)
  ↓ 실제 에이전트로 동작
  ↓ Claude Code, OpenCode, Codex, Droid 환경
  ↓ 궤적(trajectory) 수집
  ↓
[42.5만 건 학습 데이터]
  - 파일 읽기 → 에러 만남 → 진단 해석 → 수정 적용
  - read-before-write 패턴
  - LSP 진단 반응
  - 최소 diff 적용
  ↓ LoRA 미세조정
Qwen3.5-9B → OmniCoder-9B

“궤적”의 의미: 단순 코드 결과물 ❌ → 에이전트의 전체 작업 과정 ✅

코드 생성 vs 에이전트 행동

능력	측정 벤치마크	학습 방식
코드 생성	HumanEval, MBPP	일반 코드 데이터셋
에이전트 행동	Terminal-Bench, SWE-bench	궤적 데이터

체화해야 하는 패턴:

read-before-write: 파일 먼저 읽고 수정
LSP 반응: 진단 메시지 해석 후 수정
최소 diff: 전체 재작성 ❌ → 정확한 수정 ✅
에러 복구: 실패 후 진단·재시도

벤치마크 결과

Terminal-Bench 2.0 (핵심 결과 ⭐)

모델	점수	파라미터
Qwen3.5-9B (베이스)	14.6%	9B
OmniCoder-9B	23.6%	9B
GPT-OSS-120B	27%	120B

베이스 대비 +9pp (+61% 개선)
13배 큰 GPT-OSS-120B와 격차 적음
⚠️ 절대 점수 23.6%는 여전히 낮음 → 프로덕션엔 갈 길 멈

GPQA Diamond (대학원 과학)

모델	pass@1
Qwen3.5-9B	81.7%
OmniCoder-9B	83.8%
Qwen3-Next-80B	77.2%

9B 모델이 80B 모델 능가

AIME 2025 (수학)

모델	pass@5
Qwen3.5-9B	91.7%
OmniCoder-9B	90%

약간 낮지만 거의 동등 → “코딩 에이전트 미세조정이 수학 추론을 훼손하지 않음” 정도로 해석

⚠️ 빠진 벤치마크

SWE-bench: 업계 표준 코딩 에이전트 벤치마크 결과 없음
→ 다른 코딩 에이전트 모델과 직접 비교 어려움

아키텍처: Gated Delta Networks 하이브리드

베이스 Qwen3.5-9B의 특징:

[표준 어텐션 레이어]    ← 시퀀스 길이² 연산, 정밀한 주의
  ↕ 교차 배치
[Gated Delta Networks] ← 시퀀스 길이 선형 연산, 긴 컨텍스트 효율

장점: 긴 컨텍스트 효율 + 정밀 어텐션 동시 확보
컨텍스트 윈도우: 네이티브 262K 토큰
코딩 에이전트에 핵심: 다중 파일·에러 로그·이전 작업 동시 참조 필요

학습 방법론

항목	값
기법	LoRA (Low-Rank Adaptation)
rank	64
alpha	32
GPU	NVIDIA H200 × 4대
분산 전략	DDP (Distributed Data Parallel)
프레임워크	Axolotl
샘플 패킹 효율	99.35%
데이터	42.5만 건 에이전트 궤적

효율성 의미

H200 4대 → 클라우드 시간당 수십 달러 수준
LoRA → 풀 파인튜닝 대비 자원 大폭 절감
소규모 팀·스타트업도 재현 가능한 규모

윤리·법적 이슈

⚠️ 학습 데이터 출처 문제

OpenAI / Anthropic 이용 약관:
  "자사 모델 출력물로 경쟁 모델 학습 ❌"

OmniCoder-9B의 Apache 2.0 공개:
  사용자 입장 자유롭지만,
  학습 데이터(Claude/GPT 궤적) 출처는 별개 논의

이는 프론티어 모델 증류의 보편적 딜레마 — “민주화” vs “약관 위반”

실무적 가치

1. 로컬 코딩 에이전트 가능성

9B 모델 + 4비트 양자화 → 16GB VRAM GPU에서 구동
GGUF 양자화 버전 제공 → 일반 소비자 GPU 가능
API 비용 0원, 보안·오프라인 환경 강점

2. 에이전트 스캐폴딩 호환성

학습 데이터 출처가 실제 에이전트 환경:

Claude Code
OpenCode
Codex
Droid

→ 이런 프레임워크의 백엔드 모델로 끼워 넣어도 자연스럽게 동작할 가능성

3. 레시피로서의 가치

"프론티어 모델 에이전트 궤적 → LoRA 증류 → 소형 에이전트"

이 방법론 자체가 다른 도메인에 적용 가능:
- 데이터 분석 에이전트
- DevOps 자동화 에이전트
- 보안 리뷰 에이전트
- 데이터 엔지니어링 에이전트

더 큰 흐름: “에이전트 행동의 민주화”

이전:
  에이전트 코딩 = 프론티어 모델 전유물 (Claude, GPT-5급)
  높은 API 비용, 클라우드 의존

지금 (OmniCoder-9B 같은 사례):
  소형 모델도 에이전트 행동 학습 가능
  로컬 실행, 비용 민감 환경 대응
  오픈소스 생태계 활성화

한계 & 평가

잘한 점

9B로 80B/120B 모델과 경쟁
효율적 학습 (LoRA, H200 4대)
에이전트 행동 패턴 직접 증류
Apache 2.0 공개

아쉬운 점

Terminal-Bench 2.0 절대 점수 23.6% → 프로덕션 갈 길 멈
SWE-bench 결과 없음 → 직접 비교 어려움
학습 데이터 출처 윤리 이슈
프론티어 모델 자체를 대체할 수준은 아님

결론

“프론티어 모델을 대체할 수준은 아니지만, 9B 파라미터로도 에이전트 행동 패턴을 효과적으로 학습할 수 있다는 것을 실증한 점에서 오픈소스 코딩 에이전트 생태계의 의미 있는 이정표.”

핵심 시사점: 모델 크기 < 학습 데이터의 질 — 어떤 데이터로 학습했느냐가 결정적.

Bigstones

Explorer