개요

Vision-Language Models (VLM) 2026년 비교. 텍스트와 이미지·비디오·문서를 동시에 이해하는 멀티모달 모델. 프론티어 상용·오픈소스·특화(OCR·임베딩·비디오) 모델별 비교. 2026년 현재 단일 강자 없음 — 용도별 최적이 다름.

  • 주요 벤치마크: MMMU, MMMU-Pro, MathVista, ChartQA, DocVQA, OCRBench, RealWorldQA, Video-MME

빠른 결론

용도최우선가성비
종합 멀티모달Gemini 3.1 ProQwen3-VL 235B (오픈)
OCR/문서Claude Opus 4.6, Mistral OCR 3PaddleOCR-VL, Nemotron Nano VL
차트/다이어그램GPT-5.2, Llama 4 MaverickPhi-4-Reasoning-Vision
장시간 비디오Gemini 3.1 Pro (Video-MMMU 87.6)Qwen3-VL 235B, Tarsier2-7B
수학 비전 추론Qwen3-VL 235B (MathVista 85.8)Kimi-VL-A3B-Thinking
모바일/엣지MiniCPM-V 4.5 (8B)Gemma 3 4B, Phi-4-Vision
GUI 에이전트Claude Opus 4.6, Phi-4-VisionGLM-4.6V, Qwen3-VL
멀티모달 임베딩Cohere Embed v4Qwen3-VL-Embedding-2B (오픈)
다국어 OCRQwen3-VL (39언어)DeepSeek-OCR (100언어)
연구/재현성Molmo (완전 오픈)InternVL3-78B

1. 프론티어 상용 VLM

Gemini 3.1 Pro / 3 Pro / 3 Flash (Google)

항목
개발사Google DeepMind
컨텍스트1M~2M tokens
MMMU-Pro83.9 (3.1 Pro), 81.0 (3 Pro)
Video-MMMU87.6 ⭐ (압도적 1위)
Video-MME78.2 (차순위 71.4와 큰 격차)
가격12.00 (input/output, $/M tokens)

강점:

  • 2026년 멀티모달 종합 1위, 특히 비디오 이해 압도
  • 2M 컨텍스트로 장시간 비디오 분석
  • 차트·다이어그램·GUI·웹 이해 모두 강력
  • 가성비 최고 등급

활용: 멀티모달 에이전트, 비디오 분석, 로보틱스, 문서·차트 RAG

GPT-5.2 / 5.4 (OpenAI)

항목
MMMU79.1
MMMU-Pro86.5 ⭐ (정적 추론 1위), 90.1 (도구 사용 시)
MathVista81.3 (Qwen3-VL 85.8보다 낮음)
MathVision65.8
가격GPT-5 5.00, GPT-5.2 14.00, Pro 168

강점:

  • MMMU-Pro 1위 (정적 멀티모달 추론 최강)
  • 도구 사용 결합 시 압도적
  • AIME 100% + 비전 통합 추론

활용: 깊은 멀티모달 추론, 과학·수학 시각 문제, 코드+이미지

Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 (Anthropic)

항목
MMMU-Pro73.9 (no tools), 77.3 (with tools)
SWE-bench Verified80.8 (코딩 1위)
컨텍스트1M (베타)
가격 (Opus 4.6)25 (10/$37.50
가격 (Sonnet 4.6)15
가격 (Haiku 4.5)5

강점:

  • OCR + 레이아웃 분석 최강: 표 파싱, 스캔 문서, 구조화 출력
  • 에이전틱 비전 워크플로우 (스크린샷 루프, GUI 자동화)
  • PDF 네이티브 지원

활용: 문서 추출, 에이전틱 코딩+비전, 엔터프라이즈 OCR

→ 관련: Claude 스크린샷 루프 (3D 작업)


2. 오픈소스 VLM (2026 최강 라인업)

Qwen3-VL (Alibaba) — 오픈소스 대표

항목
라이선스Apache 2.0 / Qwen License
모델 변형Dense: 2B, 4B, 8B, 32B / MoE: 30B-A3B, 235B-A22B (플래그십)
컨텍스트native 256K (1M 확장 가능)
DocVQA96.5 (235B), 96.1 (8B)
OCRBench875점 (39개 언어)
MathVista85.8 ⭐ (vs GPT-5 81.3)
MathVision74.6 (vs Gemini 2.5 Pro 73.3, GPT-5 65.8)
MMMU-Pro69.3

강점:

  • 2시간 분량 비디오 분석 + 디테일 핀포인트
  • 39개 언어 OCR (전세대 대비 4배)
  • 비주얼 에이전트 (UI 조작)
  • 픽셀 단위 HTML/CSS/JS 프론트엔드 복제
  • Qwen3-VL-Embedding-2B: 멀티모달 임베딩 파생 모델

활용: 비디오 QA, 다국어 OCR, GUI 에이전트, 멀티모달 RAG

InternVL 3 / 3.5 (Shanghai AI Lab)

항목
라이선스MIT
파라미터1B ~ 78B
MMMU72.2 (78B) — 오픈소스 SOTA (2025-04)

강점: 3D 비전, GUI 에이전트, V2PE (가변 비주얼 위치 인코딩), Test-time scaling, MPO

활용: 산업용 비전, CAD, 공장 시각 AI, 연구

MiniCPM-V 4.5 (OpenBMB)

항목
파라미터8B
특이점”GPT-4o on Phone” — 스마트폰 실행 가능
비디오 압축96× (6 프레임 → 64 토큰)

강점: GPT-4o-latest, Gemini 2.0 Pro, Qwen2.5-VL 72B를 8B로 능가

활용: 모바일 AI, 엣지 디바이스, 오프라인 어시스턴트

Llama 4 Vision (Meta)

모델활성/총컨텍스트MMMUDocVQA
Scout17B/109B (16E)10M69.4-
Maverick17B/400B (128E)1M73.494.4

강점:

  • 네이티브 멀티모달 (early fusion), MoE
  • Maverick: ChartQA 90.0, MathVista 73.7
  • Scout: 10M 초장문 컨텍스트

활용: 장문 멀티모달 RAG, 코드베이스 분석, 멀티 이미지

Phi-4-Reasoning-Vision-15B (Microsoft)

항목
라이선스MIT
파라미터15B (200B 토큰만 학습, 240 B200 GPU x 4일)
AI2D84.8
ChartQA83.3
OCRBench76.0
ScreenSpot-v288.2
MathVista75.2

강점:

  • 선택적 추론 (간단한 건 빠르게, 어려운 건 깊게)
  • 컴퓨터 사용/GUI 강점 (ScreenSpot 88.2)
  • 매우 효율적 학습

활용: 엣지 추론, GUI 자동화, 과학 분석

Pixtral (Mistral AI)

항목
라이선스Apache 2.0 (완전 오픈)
파라미터12B (Pixtral Large 별도)
컨텍스트128K

강점: 네이티브 해상도 다중 이미지, 텍스트 성능 보존하며 비전 추가

DeepSeek-VL2 (DeepSeek)

항목
아키텍처MoE (Tiny 1.0B / Small 2.8B / VL2 4.5B 활성)
OCRBench834 ⭐ (vs GPT-4o 736 능가)
DocVQA93.3

강점: 작은 활성 파라미터로 강한 OCR/문서 이해

Molmo (Allen Institute / AI2)

항목
라이선스오픈 (가중치 + 데이터 + 코드)
파라미터1B, 7B, 72B

강점:

  • PixMo 데이터셋 (오디오 설명에서 생성된 독자 데이터)
  • Pointing: 모델이 시각 요소를 좌표로 지목
  • 완전한 재현성

활용: 연구, 공간 추론, 로봇 비전

Kimi-VL-A3B-Thinking (Moonshot AI)

항목
파라미터3B 활성 (MoE)
MathVista80.1
MMBench-EN-v1.184.4
RealWorldQA70.0
MMVet78.4

강점: 추론 길이 20% 단축, 작은 활성 파라미터로 큰 모델급 멀티모달 추론

→ 관련: Cursor Composer 2 = Kimi K2.5 RL 사건

GLM-4.6V (Z.ai / Zhipu)

항목
파라미터106B + 9B (Flash)
컨텍스트128K

강점: 네이티브 멀티모달 도구 호출, 픽셀 단위 프론트엔드 복제, 강력한 비주얼 추론

Gemma 3 (Google DeepMind)

항목
파라미터1B, 4B, 12B, 27B
컨텍스트128K (1B는 32K)
DocVQA85.6 (27B-it)
MMMU56.1

강점: 140+ 언어 사전학습, 35+ 언어 지원, 함수 호출, 양자화 엣지 배포

Llama 3.2 Vision (Meta)

파라미터11B, 90B
VQAv2 (90B)73.6
TextVQA73.5
DocVQA70.7

기타 주목 오픈소스

모델파라미터강점
Ovis2-34B34BMMBench 86.6, MathVista 76.1, VideoMME 75.6
Tarsier2-7B7B장시간 비디오, GPT-4o/Gemini 능가
Eagle 2.5-8B8B고해상도 비디오 + 장문 컨텍스트
Qwen2.5-VL-72B72BDocVQA 95.7, ChartQA 87.3, OCRBench 86.4

3. 특화 VLM

OCR/문서 파싱 특화

모델개발사라이선스/가격특징
Nemotron OCR v1NVIDIANVIDIA Open52.5M 경량, RegNetY+Transformer 하이브리드, PaddleOCR 대비 CER 19.5% 개선
Llama Nemotron Nano VL 8BNVIDIANVIDIA OpenC-RADIO ViT + Llama 3.1 8B, OCRBench v2 1위
Nemotron Parse 1.1NVIDIANVIDIA Open복잡한 PDF/그래프/차트/표/대시보드 구조화 추출
Mistral OCR 3MistralAPI ($2/1K 페이지)핸드라이팅 88.9%, 표 96.6%, Markdown+HTML 출력, 74% win rate
DeepSeek-OCRDeepSeek오픈OmniDocBench에서 GOT-OCR2.0 능가, 20× 압축 + 97% 정확도, 100언어
PaddleOCR-VLBaidu오픈OmniDocBench 92.86 (vs GPT-5.4 85.80)
Granite 4.0 3B VisionIBMApache 2.0엔터프라이즈 문서 데이터 추출 (2026.04 출시)
DoclingIBM오픈목적별 문서 AI
olmOCRAI2오픈OLMo 기반 OCR

→ 관련: Nemotron OCR v1, OpenDataLoader PDF

임베딩/검색용 VLM

모델라이선스/가격특징
Cohere Embed v4API (0.47/M image)텍스트+이미지 동일 벡터 공간, 128K 컨텍스트, 100+ 언어, Matryoshka, MTEB 65.20
Qwen3-VL-Embedding-2BApache 2.0텍스트/이미지/스크린샷/비디오 통합
NV-Embed-v2NVIDIA OpenMTEB 1위 (72.31, 2024.08) — 텍스트 임베딩
llama-nemotron-embed-vl-1b-v2NVIDIA OpenVL 임베딩 1B
MM-Embed오픈멀티모달 임베딩
VLM2Vec-V2오픈SOTA VLM 파인튜닝 기반
Gemini Embedding 2APIGoogle 첫 멀티모달 임베딩

→ 관련: 임베딩 모델 비교

비디오 특화

모델강점
Gemini 3.1 ProVideo-MME 78.2 (압도적), Video-MMMU 87.6
Qwen3-VL 235B2시간 비디오 디테일 분석, 256K 컨텍스트
Tarsier2-7B장시간 비디오 설명, 스트리밍 — GPT-4o 능가
MiniCPM-V 4.596배 비디오 토큰 압축
Eagle 2.5-8B고해상도 비디오 + 장문 컨텍스트

4. 한 표로 보는 비교

대표 벤치마크 매트릭스

모델MMMU/ProDocVQAOCRBenchMathVistaVideo-MME가격 ($/M I/O)
Gemini 3.1 Pro-/83.9---78.212
GPT-5.279.1/86.5--81.3-14
Claude Opus 4.6-/73.9--25
Qwen3-VL 235B-/69.396.587585.8오픈
InternVL3-78B72.2/-----오픈 (MIT)
Llama 4 Maverick73.494.4-73.7-오픈
DeepSeek-VL2-93.3834--오픈
Phi-4-Vision-15B54.3/--76.075.2-오픈 (MIT)
MiniCPM-V 4.5 (8B)---오픈
Kimi-VL-A3B (3B)64.0/46.3--80.1-오픈
PaddleOCR-VL-OmniDocBench 92.86---오픈

5. 핵심 인사이트 (2026)

1. 단일 강자 부재

  • Gemini 3.1 Pro = 멀티모달 종합 + 비디오 1위
  • GPT-5.2 = MMMU-Pro 정적 추론 1위 (86.5)
  • Claude Opus 4.6 = OCR/문서/에이전틱 비전 최강
  • Qwen3-VL 235B = 오픈소스 + 수학 비전 (MathVista 85.8 — GPT-5 능가)

2. 오픈소스가 상용에 근접 또는 능가

  • DeepSeek-VL2 OCRBench 834 > GPT-4o 736
  • Qwen3-VL DocVQA 96.5, MathVista 85.8
  • InternVL3-78B MMMU 72.2 (오픈 SOTA, GPT-4o 수준)

3. OCR 시장의 분기

VLM-OCR이 전통 OCR + 상용 API 모두 능가:
  PaddleOCR-VL 92.86 > GPT-5.4 85.80 (OmniDocBench)

비용 우위:
  자체 호스팅 VLM-OCR이 벤더 API 대비 167배 저렴 + 더 정확

4. 소형 모델의 약진

  • MiniCPM-V 4.5 (8B) > GPT-4o-latest, Gemini 2.0 Pro
  • Phi-4-Reasoning-Vision-15B > 더 큰 모델들과 경쟁
  • Kimi-VL-A3B (3B 활성) = MathVista 80.1
  • 모바일/엣지 VLM 시대 도래

5. 컨텍스트 확대

모델컨텍스트
Llama 4 Scout10M
Gemini 3 Pro2M
Claude Sonnet 4.61M (베타)
GPT-5400K
Qwen3-VL256K (1M 확장)
Pixtral128K

6. 임베딩의 멀티모달 통합

  • Cohere Embed v4 = 텍스트+이미지 동일 벡터 공간 (유일한 메이저 상용)
  • Qwen3-VL-Embedding = 텍스트/이미지/스크린샷/비디오 통합

6. 한국어 환경 추가 추천

용도추천
한국어 문서 AISolar Pro (Document AI)
한국어 + 다국어 OCRQwen3-VL (39언어), Gemma 3 (140+ 언어)
로컬 한국어 멀티모달InternVL 3.5, Qwen3-VL 8B

관련 항목