VLM Model Comparison

개요

Vision-Language Models (VLM) 2026년 비교. 텍스트와 이미지·비디오·문서를 동시에 이해하는 멀티모달 모델. 프론티어 상용·오픈소스·특화(OCR·임베딩·비디오) 모델별 비교. 2026년 현재 단일 강자 없음 — 용도별 최적이 다름.

주요 벤치마크: MMMU, MMMU-Pro, MathVista, ChartQA, DocVQA, OCRBench, RealWorldQA, Video-MME

빠른 결론

용도	최우선	가성비
종합 멀티모달	Gemini 3.1 Pro	Qwen3-VL 235B (오픈)
OCR/문서	Claude Opus 4.6, Mistral OCR 3	PaddleOCR-VL, Nemotron Nano VL
차트/다이어그램	GPT-5.2, Llama 4 Maverick	Phi-4-Reasoning-Vision
장시간 비디오	Gemini 3.1 Pro (Video-MMMU 87.6)	Qwen3-VL 235B, Tarsier2-7B
수학 비전 추론	Qwen3-VL 235B (MathVista 85.8)	Kimi-VL-A3B-Thinking
모바일/엣지	MiniCPM-V 4.5 (8B)	Gemma 3 4B, Phi-4-Vision
GUI 에이전트	Claude Opus 4.6, Phi-4-Vision	GLM-4.6V, Qwen3-VL
멀티모달 임베딩	Cohere Embed v4	Qwen3-VL-Embedding-2B (오픈)
다국어 OCR	Qwen3-VL (39언어)	DeepSeek-OCR (100언어)
연구/재현성	Molmo (완전 오픈)	InternVL3-78B

1. 프론티어 상용 VLM

Gemini 3.1 Pro / 3 Pro / 3 Flash (Google)

항목	값
개발사	Google DeepMind
컨텍스트	1M~2M tokens
MMMU-Pro	83.9 (3.1 Pro), 81.0 (3 Pro)
Video-MMMU	87.6 ⭐ (압도적 1위)
Video-MME	78.2 (차순위 71.4와 큰 격차)
가격	$2.00/$ 12.00 (input/output, $/M tokens)

강점:

2026년 멀티모달 종합 1위, 특히 비디오 이해 압도
2M 컨텍스트로 장시간 비디오 분석
차트·다이어그램·GUI·웹 이해 모두 강력
가성비 최고 등급

활용: 멀티모달 에이전트, 비디오 분석, 로보틱스, 문서·차트 RAG

GPT-5.2 / 5.4 (OpenAI)

항목	값
MMMU	79.1
MMMU-Pro	86.5 ⭐ (정적 추론 1위), 90.1 (도구 사용 시)
MathVista	81.3 (Qwen3-VL 85.8보다 낮음)
MathVision	65.8
가격	GPT-5 $0.63/$ 5.00, GPT-5.2 $1.75/$ 14.00, Pro $21/$ 168

강점:

MMMU-Pro 1위 (정적 멀티모달 추론 최강)
도구 사용 결합 시 압도적
AIME 100% + 비전 통합 추론

활용: 깊은 멀티모달 추론, 과학·수학 시각 문제, 코드+이미지

Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 (Anthropic)

항목	값
MMMU-Pro	73.9 (no tools), 77.3 (with tools)
SWE-bench Verified	80.8 (코딩 1위)
컨텍스트	1M (베타)
가격 (Opus 4.6)	$5/$ 25 ( $/ Mt o k e n s), 200 K +$ 10/$37.50
가격 (Sonnet 4.6)	$3/$ 15
가격 (Haiku 4.5)	$1/$ 5

강점:

OCR + 레이아웃 분석 최강: 표 파싱, 스캔 문서, 구조화 출력
에이전틱 비전 워크플로우 (스크린샷 루프, GUI 자동화)
PDF 네이티브 지원

활용: 문서 추출, 에이전틱 코딩+비전, 엔터프라이즈 OCR

→ 관련: Claude 스크린샷 루프 (3D 작업)

2. 오픈소스 VLM (2026 최강 라인업)

Qwen3-VL (Alibaba) — 오픈소스 대표

항목	값
라이선스	Apache 2.0 / Qwen License
모델 변형	Dense: 2B, 4B, 8B, 32B / MoE: 30B-A3B, 235B-A22B (플래그십)
컨텍스트	native 256K (1M 확장 가능)
DocVQA	96.5 (235B), 96.1 (8B)
OCRBench	875점 (39개 언어)
MathVista	85.8 ⭐ (vs GPT-5 81.3)
MathVision	74.6 (vs Gemini 2.5 Pro 73.3, GPT-5 65.8)
MMMU-Pro	69.3

강점:

2시간 분량 비디오 분석 + 디테일 핀포인트
39개 언어 OCR (전세대 대비 4배)
비주얼 에이전트 (UI 조작)
픽셀 단위 HTML/CSS/JS 프론트엔드 복제
Qwen3-VL-Embedding-2B: 멀티모달 임베딩 파생 모델

활용: 비디오 QA, 다국어 OCR, GUI 에이전트, 멀티모달 RAG

InternVL 3 / 3.5 (Shanghai AI Lab)

항목	값
라이선스	MIT
파라미터	1B ~ 78B
MMMU	72.2 (78B) — 오픈소스 SOTA (2025-04)

강점: 3D 비전, GUI 에이전트, V2PE (가변 비주얼 위치 인코딩), Test-time scaling, MPO

활용: 산업용 비전, CAD, 공장 시각 AI, 연구

MiniCPM-V 4.5 (OpenBMB)

항목	값
파라미터	8B
특이점	”GPT-4o on Phone” — 스마트폰 실행 가능
비디오 압축	96× (6 프레임 → 64 토큰)

강점: GPT-4o-latest, Gemini 2.0 Pro, Qwen2.5-VL 72B를 8B로 능가

활용: 모바일 AI, 엣지 디바이스, 오프라인 어시스턴트

Llama 4 Vision (Meta)

모델	활성/총	컨텍스트	MMMU	DocVQA
Scout	17B/109B (16E)	10M ⭐	69.4	-
Maverick	17B/400B (128E)	1M	73.4	94.4

강점:

네이티브 멀티모달 (early fusion), MoE
Maverick: ChartQA 90.0, MathVista 73.7
Scout: 10M 초장문 컨텍스트

활용: 장문 멀티모달 RAG, 코드베이스 분석, 멀티 이미지

Phi-4-Reasoning-Vision-15B (Microsoft)

항목	값
라이선스	MIT
파라미터	15B (200B 토큰만 학습, 240 B200 GPU x 4일)
AI2D	84.8
ChartQA	83.3
OCRBench	76.0
ScreenSpot-v2	88.2
MathVista	75.2

강점:

선택적 추론 (간단한 건 빠르게, 어려운 건 깊게)
컴퓨터 사용/GUI 강점 (ScreenSpot 88.2)
매우 효율적 학습

활용: 엣지 추론, GUI 자동화, 과학 분석

Pixtral (Mistral AI)

항목	값
라이선스	Apache 2.0 (완전 오픈)
파라미터	12B (Pixtral Large 별도)
컨텍스트	128K

강점: 네이티브 해상도 다중 이미지, 텍스트 성능 보존하며 비전 추가

DeepSeek-VL2 (DeepSeek)

항목	값
아키텍처	MoE (Tiny 1.0B / Small 2.8B / VL2 4.5B 활성)
OCRBench	834 ⭐ (vs GPT-4o 736 능가)
DocVQA	93.3

강점: 작은 활성 파라미터로 강한 OCR/문서 이해

Molmo (Allen Institute / AI2)

항목	값
라이선스	오픈 (가중치 + 데이터 + 코드)
파라미터	1B, 7B, 72B

강점:

PixMo 데이터셋 (오디오 설명에서 생성된 독자 데이터)
Pointing: 모델이 시각 요소를 좌표로 지목
완전한 재현성

활용: 연구, 공간 추론, 로봇 비전

Kimi-VL-A3B-Thinking (Moonshot AI)

항목	값
파라미터	3B 활성 (MoE)
MathVista	80.1
MMBench-EN-v1.1	84.4
RealWorldQA	70.0
MMVet	78.4

강점: 추론 길이 20% 단축, 작은 활성 파라미터로 큰 모델급 멀티모달 추론

GLM-4.6V (Z.ai / Zhipu)

항목	값
파라미터	106B + 9B (Flash)
컨텍스트	128K

강점: 네이티브 멀티모달 도구 호출, 픽셀 단위 프론트엔드 복제, 강력한 비주얼 추론

Gemma 3 (Google DeepMind)

항목	값
파라미터	1B, 4B, 12B, 27B
컨텍스트	128K (1B는 32K)
DocVQA	85.6 (27B-it)
MMMU	56.1

강점: 140+ 언어 사전학습, 35+ 언어 지원, 함수 호출, 양자화 엣지 배포

Llama 3.2 Vision (Meta)

파라미터	11B, 90B
VQAv2 (90B)	73.6
TextVQA	73.5
DocVQA	70.7

기타 주목 오픈소스

모델	파라미터	강점
Ovis2-34B	34B	MMBench 86.6, MathVista 76.1, VideoMME 75.6
Tarsier2-7B	7B	장시간 비디오, GPT-4o/Gemini 능가
Eagle 2.5-8B	8B	고해상도 비디오 + 장문 컨텍스트
Qwen2.5-VL-72B	72B	DocVQA 95.7, ChartQA 87.3, OCRBench 86.4

3. 특화 VLM

OCR/문서 파싱 특화

모델	개발사	라이선스/가격	특징
Nemotron OCR v1	NVIDIA	NVIDIA Open	52.5M 경량, RegNetY+Transformer 하이브리드, PaddleOCR 대비 CER 19.5% 개선
Llama Nemotron Nano VL 8B	NVIDIA	NVIDIA Open	C-RADIO ViT + Llama 3.1 8B, OCRBench v2 1위
Nemotron Parse 1.1	NVIDIA	NVIDIA Open	복잡한 PDF/그래프/차트/표/대시보드 구조화 추출
Mistral OCR 3	Mistral	API ($2/1K 페이지)	핸드라이팅 88.9%, 표 96.6%, Markdown+HTML 출력, 74% win rate
DeepSeek-OCR	DeepSeek	오픈	OmniDocBench에서 GOT-OCR2.0 능가, 20× 압축 + 97% 정확도, 100언어
PaddleOCR-VL	Baidu	오픈	OmniDocBench 92.86 (vs GPT-5.4 85.80)
Granite 4.0 3B Vision	IBM	Apache 2.0	엔터프라이즈 문서 데이터 추출 (2026.04 출시)
Docling	IBM	오픈	목적별 문서 AI
olmOCR	AI2	오픈	OLMo 기반 OCR

임베딩/검색용 VLM

모델	라이선스/가격	특징
Cohere Embed v4	API ( $0.12/ MT o k t e x t,$ 0.47/M image)	텍스트+이미지 동일 벡터 공간, 128K 컨텍스트, 100+ 언어, Matryoshka, MTEB 65.20
Qwen3-VL-Embedding-2B	Apache 2.0	텍스트/이미지/스크린샷/비디오 통합
NV-Embed-v2	NVIDIA Open	MTEB 1위 (72.31, 2024.08) — 텍스트 임베딩
llama-nemotron-embed-vl-1b-v2	NVIDIA Open	VL 임베딩 1B
MM-Embed	오픈	멀티모달 임베딩
VLM2Vec-V2	오픈	SOTA VLM 파인튜닝 기반
Gemini Embedding 2	API	Google 첫 멀티모달 임베딩

→ 관련: 임베딩 모델 비교

비디오 특화

모델	강점
Gemini 3.1 Pro	Video-MME 78.2 (압도적), Video-MMMU 87.6
Qwen3-VL 235B	2시간 비디오 디테일 분석, 256K 컨텍스트
Tarsier2-7B	장시간 비디오 설명, 스트리밍 — GPT-4o 능가
MiniCPM-V 4.5	96배 비디오 토큰 압축
Eagle 2.5-8B	고해상도 비디오 + 장문 컨텍스트

4. 한 표로 보는 비교

대표 벤치마크 매트릭스

모델	MMMU/Pro	DocVQA	OCRBench	MathVista	Video-MME	가격 ($/M I/O)
Gemini 3.1 Pro	-/83.9	-	-	-	78.2	$2/$ 12
GPT-5.2	79.1/86.5	-	-	81.3	-	$1.75/$ 14
Claude Opus 4.6	-/73.9	강	강	-	-	$5/$ 25
Qwen3-VL 235B	-/69.3	96.5	875	85.8	강	오픈
InternVL3-78B	72.2/-	-	-	-	-	오픈 (MIT)
Llama 4 Maverick	73.4	94.4	-	73.7	-	오픈
DeepSeek-VL2	-	93.3	834	-	-	오픈
Phi-4-Vision-15B	54.3/-	-	76.0	75.2	-	오픈 (MIT)
MiniCPM-V 4.5 (8B)	-	강	강	-	-	오픈
Kimi-VL-A3B (3B)	64.0/46.3	-	-	80.1	-	오픈
PaddleOCR-VL	-	OmniDocBench 92.86	-	-	-	오픈

5. 핵심 인사이트 (2026)

1. 단일 강자 부재

Gemini 3.1 Pro = 멀티모달 종합 + 비디오 1위
GPT-5.2 = MMMU-Pro 정적 추론 1위 (86.5)
Claude Opus 4.6 = OCR/문서/에이전틱 비전 최강
Qwen3-VL 235B = 오픈소스 + 수학 비전 (MathVista 85.8 — GPT-5 능가)

2. 오픈소스가 상용에 근접 또는 능가

DeepSeek-VL2 OCRBench 834 > GPT-4o 736
Qwen3-VL DocVQA 96.5, MathVista 85.8
InternVL3-78B MMMU 72.2 (오픈 SOTA, GPT-4o 수준)

3. OCR 시장의 분기

VLM-OCR이 전통 OCR + 상용 API 모두 능가:
  PaddleOCR-VL 92.86 > GPT-5.4 85.80 (OmniDocBench)

비용 우위:
  자체 호스팅 VLM-OCR이 벤더 API 대비 167배 저렴 + 더 정확

4. 소형 모델의 약진

MiniCPM-V 4.5 (8B) > GPT-4o-latest, Gemini 2.0 Pro
Phi-4-Reasoning-Vision-15B > 더 큰 모델들과 경쟁
Kimi-VL-A3B (3B 활성) = MathVista 80.1
모바일/엣지 VLM 시대 도래

5. 컨텍스트 확대

모델	컨텍스트
Llama 4 Scout	10M ⭐
Gemini 3 Pro	2M
Claude Sonnet 4.6	1M (베타)
GPT-5	400K
Qwen3-VL	256K (1M 확장)
Pixtral	128K

6. 임베딩의 멀티모달 통합

Cohere Embed v4 = 텍스트+이미지 동일 벡터 공간 (유일한 메이저 상용)
Qwen3-VL-Embedding = 텍스트/이미지/스크린샷/비디오 통합

6. 한국어 환경 추가 추천

용도	추천
한국어 문서 AI	Solar Pro (Document AI)
한국어 + 다국어 OCR	Qwen3-VL (39언어), Gemma 3 (140+ 언어)
로컬 한국어 멀티모달	InternVL 3.5, Qwen3-VL 8B

Bigstones

Explorer