개요

Qwen3.5 9B (Alibaba)와 Gemma 4 E4B (Google)는 2026년 로컬/엣지 AI 시대의 대표 소형 모델. 둘 다 비전 지원, Apache 2.0 라이선스, 로컬 실행 가능. 하지만 파라미터 규모, 아키텍처, 용도에서 상당한 차이가 있다.


기본 사양 비교

항목Qwen3.5 9BGemma 4 E4B
개발사Alibaba (Qwen)Google DeepMind
총 파라미터~9.7B~8B (로드)
유효 파라미터9.7B (Dense)4.5B (E = Effective)
아키텍처Hybrid Attention (Gated DeltaNet + Full Attention 3:1)Dense Transformer
컨텍스트 윈도우262K (네이티브, ~1M 확장 가능)128K
비전 (이미지)네이티브 통합네이티브 통합
오디오 입력Qwen3.5-Omni에서 지원네이티브 지원 (E4B)
라이선스Apache 2.0Apache 2.0
다국어201개 언어/방언영어 중심 + 주요 유럽어
출시일2026.032026.04

핵심 차이: Qwen3.5 9B는 9.7B 전체가 활성화되는 Dense 모델. Gemma 4 E4B는 8B 로드하지만 추론 시 4.5B만 유효 — “Effective 4B”라는 의미. 따라서 파라미터 크기 면에서 Qwen3.5 9B가 약 2배 크다.


벤치마크 비교

핵심 벤치마크 (수집 가능한 공식/반공식 수치)

벤치마크Qwen3.5 9BGemma 4 E4B승자비고
MMLU-Pro (일반 지식)82.569.4Qwen+13.1p 차이, 압도적
GPQA Diamond (PhD급 추론)81.7-QwenE4B 공식 수치 미공개
AIME 2026 (수학 올림피아드)91.342.5Qwen2배 이상 차이
MMMU-Pro (비전 추론)70.152.6Qwen+17.5p
LiveCodeBench v6 (코딩)~60+ (추정)52.0Qwen (추정)9B 공식 수치 미공개, 27B=80.0
IFEval (지시 따르기)~90+ (추정)-Qwen (추정)4B=89.8, 9B는 그 이상
IFBench76.5-QwenGPT-5.2(75.4) 초과
MMMLU (다국어 지식)81.2-Qwen201개 언어 커버리지
OmniDocBench v1.5 (문서 이해)87.7-Qwen문서 처리 강점
Video-MME (영상 이해 w/sub)84.5-Qwen네이티브 비전

참고: GPT-OSS-120B (13배 크기) 대비 Qwen3.5 9B

벤치마크Qwen3.5 9BGPT-OSS-120B
MMLU-Pro82.580.8
GPQA Diamond81.780.1
MMMLU81.278.2
MMMU-Pro70.159.7
HMMT Feb 202583.276.7

Qwen3.5 9B는 13배 큰 모델(120B)을 거의 모든 벤치마크에서 능가 — 2026년 소형 모델 혁명의 상징.


코딩 능력 비교

항목Qwen3.5 9BGemma 4 E4B
LiveCodeBench v6~60+ (추정)52.0
코딩 인덱스25.3 (소형 모델 최고)-
SWE-bench--
Go 코딩 (실사용 테스트)실용적 코드 생성 가능기본 코드 생성 가능
평가소형 모델 중 코딩 최강엣지 디바이스용으로는 우수

승자: Qwen3.5 9B — 코딩 벤치마크에서 일관되게 우위. 코딩 인덱스 25.3은 소형 모델 중 최고 수준.


수학/추론 능력 비교

항목Qwen3.5 9BGemma 4 E4B
AIME 202691.342.5
HMMT Feb 202583.2~94.8-
GPQA Diamond81.7-
평가플래그십 모델급 수학 추론소형 모델치고는 인상적이나 한계

승자: Qwen3.5 9B — AIME에서 2배 이상 차이. 수학 추론은 비교 불가 수준.


도구 호출 (Tool Calling / Function Calling)

항목Qwen3.5 9BGemma 4 E4B
네이티브 지원네이티브 도구 호출네이티브 Function Calling
BFCL-v3 (도구 호출 벤치)- (235B: 70.8)-
특수 토큰도구 호출 전용 템플릿6개 전용 특수 토큰
MCP 지원Qwen-Agent 통해 지원llama.cpp OpenAI 호환 서버 통해 지원
구조화 출력JSON 모드 지원네이티브 JSON 구조화 출력
Thinking 모드지원 (추론 체인)지원 (단계별 추론)

평가: 둘 다 네이티브 도구 호출을 지원하지만, Qwen3.5 9B가 더 큰 모델 크기와 높은 추론 능력 덕분에 복잡한 도구 호출 시나리오에서 더 안정적. Gemma 4 E4B는 6개 전용 특수 토큰으로 깔끔한 구조화된 도구 호출이 강점.


에이전틱 코딩 (Agentic Use)

항목Qwen3.5 9BGemma 4 E4B
OpenCode 지원검증됨 (LM Studio + OpenCode)지원 가능 (Ollama/LM Studio)
Claude Code 로컬검증됨 (Ollama 통해)지원 가능
TAU2-bench (에이전트)-- (31B: 86.4)
실사용 사례Telegram 봇 + 코드 생성 검증됨엣지 에이전트, 모바일 AI 도우미
256K 컨텍스트대형 코드베이스 처리 가능128K로 제한

승자: Qwen3.5 9B — 에이전틱 코딩에서 검증된 사례가 더 많고, 256K 컨텍스트가 대형 코드베이스 작업에 결정적 이점. OpenCode/Claude Code 로컬 워크플로우에서 실전 검증됨.


비전 (Vision) 능력 비교

항목Qwen3.5 9BGemma 4 E4B
이미지 이해네이티브 통합 (별도 VL 모델 불필요)네이티브 통합
오디오 입력Omni 버전에서 지원네이티브 지원 (E4B 고유)
영상 이해지원 (Video-MME 84.5)지원
MMMU-Pro70.152.6
문서 이해87.7 (OmniDocBench)-
UI 그라운딩픽셀 레벨 그라운딩 지원-

승자: Qwen3.5 9B — 비전 추론에서 MMMU-Pro 17.5p 차이. 특히 문서 이해(OCR 대체)와 UI 네비게이션에서 강점.

단, Gemma 4 E4B는 오디오 입력을 네이티브로 지원하는 유일한 소형 모델 중 하나 — 음성 + 이미지 + 텍스트 멀티모달이 필요하면 Gemma E4B가 독보적.


속도/처리량/메모리 비교

항목Qwen3.5 9BGemma 4 E4B
VRAM 요구량 (FP16)~12GB~8GB (추정)
VRAM (Q4 양자화)~6GB~4GB (추정)
실행 가능 GPURTX 3060 12GB+RTX 3060 8GB+, 모바일 GPU
KV 캐시 효율75% 절감 (Hybrid Attention 3:1)표준
추론 속도RTX 4090 Q4: ~50+ tok/s (추정)RTX 4090 Q4: ~70+ tok/s (추정, 더 작은 모델)
엣지 배포노트북, 데스크탑폰, Raspberry Pi, Jetson Nano

메모리: Gemma 4 E4B가 유효 파라미터가 절반이므로 메모리 사용량이 적고 추론 속도가 빠름. 하지만 Qwen3.5 9B의 Hybrid Attention (Gated DeltaNet)이 KV 캐시를 75% 줄여 긴 컨텍스트에서의 메모리 효율은 예상보다 좋음.

속도: Gemma 4 E4B가 더 작은 모델이므로 토큰/초 처리량은 더 높음. 리소스 제약 환경에서는 Gemma 4 E4B가 유리.


컨텍스트 윈도우

항목Qwen3.5 9BGemma 4 E4B
네이티브 컨텍스트262K128K
확장 컨텍스트~1M (스케일링)-
롱 컨텍스트 품질Hybrid Attention으로 안정적128K 내에서 안정적

승자: Qwen3.5 9B — 2배 이상 긴 컨텍스트. 대형 코드베이스, 긴 문서 처리에서 결정적 이점.


종합 평가

점수 요약

영역Qwen3.5 9BGemma 4 E4B비고
일반 지식 (MMLU-Pro)AC+13p 차이
수학 추론A+D+AIME 91.3 vs 42.5
코딩AB-코딩 인덱스 25.3
비전/멀티모달ABMMMU-Pro 70.1 vs 52.6
도구 호출A-B+둘 다 네이티브, Qwen이 추론 이점
에이전틱 코딩AB-OpenCode 실전 검증
속도/효율BAE4B가 더 가볍고 빠름
메모리 사용BAE4B가 절반 크기
컨텍스트 윈도우A+B262K vs 128K
다국어A+C+201개 vs 영어 중심
오디오 입력B (Omni 별도)A (네이티브)E4B 고유 강점
엣지/모바일 배포BA폰, RPi 가능

최종 결론

Qwen3.5 9B를 선택해야 할 때:
  - 코딩/에이전틱 워크플로우 (OpenCode, Claude Code 로컬)
  - 수학/추론이 중요한 작업
  - 긴 컨텍스트가 필요한 작업 (262K)
  - 다국어 지원 (한국어 포함 201개 언어)
  - 문서 이해/OCR 대체
  - 벤치마크 절대 성능이 중요할 때
  → 12GB+ VRAM GPU 필요

Gemma 4 E4B를 선택해야 할 때:
  - 메모리/속도가 제한적인 엣지 환경 (폰, RPi, Jetson)
  - 오디오 + 이미지 + 텍스트 네이티브 멀티모달
  - Google 생태계 (Android, TFLite) 통합
  - VRAM 8GB 미만 환경
  - 배터리/전력 효율이 중요한 모바일 배포
  → 최소 4GB VRAM으로 실행 가능

요약: 성능 대 성능으로는 Qwen3.5 9B가 거의 모든 벤치마크에서 우위 (파라미터가 2배 크므로 당연). 그러나 Gemma 4 E4B는 절반의 유효 파라미터로 놀라운 효율을 보여주며, 모바일/엣지 + 오디오 네이티브라는 고유한 위치를 차지.


Arena Elo

  • Qwen3.5 9B: 공식 Arena Elo 미등재 (2026.04 기준). 단, 소형 모델 리더보드에서 최상위권.
  • Gemma 4 E4B: 공식 Arena Elo 미등재. E4B급 소형 모델은 Arena 평가 대상에서 제외되는 경우가 많음.
  • 참고: Qwen3-235B의 Arena Elo는 상위권, GLM-5는 1451로 오픈소스 최고.

관련 항목