개요
Vision-Language Models (VLM) 2026년 비교. 텍스트와 이미지·비디오·문서를 동시에 이해하는 멀티모달 모델. 프론티어 상용·오픈소스·특화(OCR·임베딩·비디오) 모델별 비교. 2026년 현재 단일 강자 없음 — 용도별 최적이 다름.
- 주요 벤치마크: MMMU, MMMU-Pro, MathVista, ChartQA, DocVQA, OCRBench, RealWorldQA, Video-MME
빠른 결론
| 용도 | 최우선 | 가성비 |
|---|---|---|
| 종합 멀티모달 | Gemini 3.1 Pro | Qwen3-VL 235B (오픈) |
| OCR/문서 | Claude Opus 4.6, Mistral OCR 3 | PaddleOCR-VL, Nemotron Nano VL |
| 차트/다이어그램 | GPT-5.2, Llama 4 Maverick | Phi-4-Reasoning-Vision |
| 장시간 비디오 | Gemini 3.1 Pro (Video-MMMU 87.6) | Qwen3-VL 235B, Tarsier2-7B |
| 수학 비전 추론 | Qwen3-VL 235B (MathVista 85.8) | Kimi-VL-A3B-Thinking |
| 모바일/엣지 | MiniCPM-V 4.5 (8B) | Gemma 3 4B, Phi-4-Vision |
| GUI 에이전트 | Claude Opus 4.6, Phi-4-Vision | GLM-4.6V, Qwen3-VL |
| 멀티모달 임베딩 | Cohere Embed v4 | Qwen3-VL-Embedding-2B (오픈) |
| 다국어 OCR | Qwen3-VL (39언어) | DeepSeek-OCR (100언어) |
| 연구/재현성 | Molmo (완전 오픈) | InternVL3-78B |
1. 프론티어 상용 VLM
Gemini 3.1 Pro / 3 Pro / 3 Flash (Google)
| 항목 | 값 |
|---|---|
| 개발사 | Google DeepMind |
| 컨텍스트 | 1M~2M tokens |
| MMMU-Pro | 83.9 (3.1 Pro), 81.0 (3 Pro) |
| Video-MMMU | 87.6 ⭐ (압도적 1위) |
| Video-MME | 78.2 (차순위 71.4와 큰 격차) |
| 가격 | 12.00 (input/output, $/M tokens) |
강점:
- 2026년 멀티모달 종합 1위, 특히 비디오 이해 압도
- 2M 컨텍스트로 장시간 비디오 분석
- 차트·다이어그램·GUI·웹 이해 모두 강력
- 가성비 최고 등급
활용: 멀티모달 에이전트, 비디오 분석, 로보틱스, 문서·차트 RAG
GPT-5.2 / 5.4 (OpenAI)
| 항목 | 값 |
|---|---|
| MMMU | 79.1 |
| MMMU-Pro | 86.5 ⭐ (정적 추론 1위), 90.1 (도구 사용 시) |
| MathVista | 81.3 (Qwen3-VL 85.8보다 낮음) |
| MathVision | 65.8 |
| 가격 | GPT-5 5.00, GPT-5.2 14.00, Pro 168 |
강점:
- MMMU-Pro 1위 (정적 멀티모달 추론 최강)
- 도구 사용 결합 시 압도적
- AIME 100% + 비전 통합 추론
활용: 깊은 멀티모달 추론, 과학·수학 시각 문제, 코드+이미지
Claude Opus 4.6 / Sonnet 4.6 / Haiku 4.5 (Anthropic)
| 항목 | 값 |
|---|---|
| MMMU-Pro | 73.9 (no tools), 77.3 (with tools) |
| SWE-bench Verified | 80.8 (코딩 1위) |
| 컨텍스트 | 1M (베타) |
| 가격 (Opus 4.6) | 25 (10/$37.50 |
| 가격 (Sonnet 4.6) | 15 |
| 가격 (Haiku 4.5) | 5 |
강점:
- OCR + 레이아웃 분석 최강: 표 파싱, 스캔 문서, 구조화 출력
- 에이전틱 비전 워크플로우 (스크린샷 루프, GUI 자동화)
- PDF 네이티브 지원
활용: 문서 추출, 에이전틱 코딩+비전, 엔터프라이즈 OCR
→ 관련: Claude 스크린샷 루프 (3D 작업)
2. 오픈소스 VLM (2026 최강 라인업)
Qwen3-VL (Alibaba) — 오픈소스 대표
| 항목 | 값 |
|---|---|
| 라이선스 | Apache 2.0 / Qwen License |
| 모델 변형 | Dense: 2B, 4B, 8B, 32B / MoE: 30B-A3B, 235B-A22B (플래그십) |
| 컨텍스트 | native 256K (1M 확장 가능) |
| DocVQA | 96.5 (235B), 96.1 (8B) |
| OCRBench | 875점 (39개 언어) |
| MathVista | 85.8 ⭐ (vs GPT-5 81.3) |
| MathVision | 74.6 (vs Gemini 2.5 Pro 73.3, GPT-5 65.8) |
| MMMU-Pro | 69.3 |
강점:
- 2시간 분량 비디오 분석 + 디테일 핀포인트
- 39개 언어 OCR (전세대 대비 4배)
- 비주얼 에이전트 (UI 조작)
- 픽셀 단위 HTML/CSS/JS 프론트엔드 복제
- Qwen3-VL-Embedding-2B: 멀티모달 임베딩 파생 모델
활용: 비디오 QA, 다국어 OCR, GUI 에이전트, 멀티모달 RAG
InternVL 3 / 3.5 (Shanghai AI Lab)
| 항목 | 값 |
|---|---|
| 라이선스 | MIT |
| 파라미터 | 1B ~ 78B |
| MMMU | 72.2 (78B) — 오픈소스 SOTA (2025-04) |
강점: 3D 비전, GUI 에이전트, V2PE (가변 비주얼 위치 인코딩), Test-time scaling, MPO
활용: 산업용 비전, CAD, 공장 시각 AI, 연구
MiniCPM-V 4.5 (OpenBMB)
| 항목 | 값 |
|---|---|
| 파라미터 | 8B |
| 특이점 | ”GPT-4o on Phone” — 스마트폰 실행 가능 |
| 비디오 압축 | 96× (6 프레임 → 64 토큰) |
강점: GPT-4o-latest, Gemini 2.0 Pro, Qwen2.5-VL 72B를 8B로 능가
활용: 모바일 AI, 엣지 디바이스, 오프라인 어시스턴트
Llama 4 Vision (Meta)
| 모델 | 활성/총 | 컨텍스트 | MMMU | DocVQA |
|---|---|---|---|---|
| Scout | 17B/109B (16E) | 10M ⭐ | 69.4 | - |
| Maverick | 17B/400B (128E) | 1M | 73.4 | 94.4 |
강점:
- 네이티브 멀티모달 (early fusion), MoE
- Maverick: ChartQA 90.0, MathVista 73.7
- Scout: 10M 초장문 컨텍스트
활용: 장문 멀티모달 RAG, 코드베이스 분석, 멀티 이미지
Phi-4-Reasoning-Vision-15B (Microsoft)
| 항목 | 값 |
|---|---|
| 라이선스 | MIT |
| 파라미터 | 15B (200B 토큰만 학습, 240 B200 GPU x 4일) |
| AI2D | 84.8 |
| ChartQA | 83.3 |
| OCRBench | 76.0 |
| ScreenSpot-v2 | 88.2 |
| MathVista | 75.2 |
강점:
- 선택적 추론 (간단한 건 빠르게, 어려운 건 깊게)
- 컴퓨터 사용/GUI 강점 (ScreenSpot 88.2)
- 매우 효율적 학습
활용: 엣지 추론, GUI 자동화, 과학 분석
Pixtral (Mistral AI)
| 항목 | 값 |
|---|---|
| 라이선스 | Apache 2.0 (완전 오픈) |
| 파라미터 | 12B (Pixtral Large 별도) |
| 컨텍스트 | 128K |
강점: 네이티브 해상도 다중 이미지, 텍스트 성능 보존하며 비전 추가
DeepSeek-VL2 (DeepSeek)
| 항목 | 값 |
|---|---|
| 아키텍처 | MoE (Tiny 1.0B / Small 2.8B / VL2 4.5B 활성) |
| OCRBench | 834 ⭐ (vs GPT-4o 736 능가) |
| DocVQA | 93.3 |
강점: 작은 활성 파라미터로 강한 OCR/문서 이해
Molmo (Allen Institute / AI2)
| 항목 | 값 |
|---|---|
| 라이선스 | 오픈 (가중치 + 데이터 + 코드) |
| 파라미터 | 1B, 7B, 72B |
강점:
- PixMo 데이터셋 (오디오 설명에서 생성된 독자 데이터)
- Pointing: 모델이 시각 요소를 좌표로 지목
- 완전한 재현성
활용: 연구, 공간 추론, 로봇 비전
Kimi-VL-A3B-Thinking (Moonshot AI)
| 항목 | 값 |
|---|---|
| 파라미터 | 3B 활성 (MoE) |
| MathVista | 80.1 |
| MMBench-EN-v1.1 | 84.4 |
| RealWorldQA | 70.0 |
| MMVet | 78.4 |
강점: 추론 길이 20% 단축, 작은 활성 파라미터로 큰 모델급 멀티모달 추론
→ 관련: Cursor Composer 2 = Kimi K2.5 RL 사건
GLM-4.6V (Z.ai / Zhipu)
| 항목 | 값 |
|---|---|
| 파라미터 | 106B + 9B (Flash) |
| 컨텍스트 | 128K |
강점: 네이티브 멀티모달 도구 호출, 픽셀 단위 프론트엔드 복제, 강력한 비주얼 추론
Gemma 3 (Google DeepMind)
| 항목 | 값 |
|---|---|
| 파라미터 | 1B, 4B, 12B, 27B |
| 컨텍스트 | 128K (1B는 32K) |
| DocVQA | 85.6 (27B-it) |
| MMMU | 56.1 |
강점: 140+ 언어 사전학습, 35+ 언어 지원, 함수 호출, 양자화 엣지 배포
Llama 3.2 Vision (Meta)
| 파라미터 | 11B, 90B |
|---|---|
| VQAv2 (90B) | 73.6 |
| TextVQA | 73.5 |
| DocVQA | 70.7 |
기타 주목 오픈소스
| 모델 | 파라미터 | 강점 |
|---|---|---|
| Ovis2-34B | 34B | MMBench 86.6, MathVista 76.1, VideoMME 75.6 |
| Tarsier2-7B | 7B | 장시간 비디오, GPT-4o/Gemini 능가 |
| Eagle 2.5-8B | 8B | 고해상도 비디오 + 장문 컨텍스트 |
| Qwen2.5-VL-72B | 72B | DocVQA 95.7, ChartQA 87.3, OCRBench 86.4 |
3. 특화 VLM
OCR/문서 파싱 특화
| 모델 | 개발사 | 라이선스/가격 | 특징 |
|---|---|---|---|
| Nemotron OCR v1 | NVIDIA | NVIDIA Open | 52.5M 경량, RegNetY+Transformer 하이브리드, PaddleOCR 대비 CER 19.5% 개선 |
| Llama Nemotron Nano VL 8B | NVIDIA | NVIDIA Open | C-RADIO ViT + Llama 3.1 8B, OCRBench v2 1위 |
| Nemotron Parse 1.1 | NVIDIA | NVIDIA Open | 복잡한 PDF/그래프/차트/표/대시보드 구조화 추출 |
| Mistral OCR 3 | Mistral | API ($2/1K 페이지) | 핸드라이팅 88.9%, 표 96.6%, Markdown+HTML 출력, 74% win rate |
| DeepSeek-OCR | DeepSeek | 오픈 | OmniDocBench에서 GOT-OCR2.0 능가, 20× 압축 + 97% 정확도, 100언어 |
| PaddleOCR-VL | Baidu | 오픈 | OmniDocBench 92.86 (vs GPT-5.4 85.80) |
| Granite 4.0 3B Vision | IBM | Apache 2.0 | 엔터프라이즈 문서 데이터 추출 (2026.04 출시) |
| Docling | IBM | 오픈 | 목적별 문서 AI |
| olmOCR | AI2 | 오픈 | OLMo 기반 OCR |
→ 관련: Nemotron OCR v1, OpenDataLoader PDF
임베딩/검색용 VLM
| 모델 | 라이선스/가격 | 특징 |
|---|---|---|
| Cohere Embed v4 | API (0.47/M image) | 텍스트+이미지 동일 벡터 공간, 128K 컨텍스트, 100+ 언어, Matryoshka, MTEB 65.20 |
| Qwen3-VL-Embedding-2B | Apache 2.0 | 텍스트/이미지/스크린샷/비디오 통합 |
| NV-Embed-v2 | NVIDIA Open | MTEB 1위 (72.31, 2024.08) — 텍스트 임베딩 |
| llama-nemotron-embed-vl-1b-v2 | NVIDIA Open | VL 임베딩 1B |
| MM-Embed | 오픈 | 멀티모달 임베딩 |
| VLM2Vec-V2 | 오픈 | SOTA VLM 파인튜닝 기반 |
| Gemini Embedding 2 | API | Google 첫 멀티모달 임베딩 |
→ 관련: 임베딩 모델 비교
비디오 특화
| 모델 | 강점 |
|---|---|
| Gemini 3.1 Pro | Video-MME 78.2 (압도적), Video-MMMU 87.6 |
| Qwen3-VL 235B | 2시간 비디오 디테일 분석, 256K 컨텍스트 |
| Tarsier2-7B | 장시간 비디오 설명, 스트리밍 — GPT-4o 능가 |
| MiniCPM-V 4.5 | 96배 비디오 토큰 압축 |
| Eagle 2.5-8B | 고해상도 비디오 + 장문 컨텍스트 |
4. 한 표로 보는 비교
대표 벤치마크 매트릭스
| 모델 | MMMU/Pro | DocVQA | OCRBench | MathVista | Video-MME | 가격 ($/M I/O) |
|---|---|---|---|---|---|---|
| Gemini 3.1 Pro | -/83.9 | - | - | - | 78.2 | 12 |
| GPT-5.2 | 79.1/86.5 | - | - | 81.3 | - | 14 |
| Claude Opus 4.6 | -/73.9 | 강 | 강 | - | - | 25 |
| Qwen3-VL 235B | -/69.3 | 96.5 | 875 | 85.8 | 강 | 오픈 |
| InternVL3-78B | 72.2/- | - | - | - | - | 오픈 (MIT) |
| Llama 4 Maverick | 73.4 | 94.4 | - | 73.7 | - | 오픈 |
| DeepSeek-VL2 | - | 93.3 | 834 | - | - | 오픈 |
| Phi-4-Vision-15B | 54.3/- | - | 76.0 | 75.2 | - | 오픈 (MIT) |
| MiniCPM-V 4.5 (8B) | - | 강 | 강 | - | - | 오픈 |
| Kimi-VL-A3B (3B) | 64.0/46.3 | - | - | 80.1 | - | 오픈 |
| PaddleOCR-VL | - | OmniDocBench 92.86 | - | - | - | 오픈 |
5. 핵심 인사이트 (2026)
1. 단일 강자 부재
- Gemini 3.1 Pro = 멀티모달 종합 + 비디오 1위
- GPT-5.2 = MMMU-Pro 정적 추론 1위 (86.5)
- Claude Opus 4.6 = OCR/문서/에이전틱 비전 최강
- Qwen3-VL 235B = 오픈소스 + 수학 비전 (MathVista 85.8 — GPT-5 능가)
2. 오픈소스가 상용에 근접 또는 능가
- DeepSeek-VL2 OCRBench 834 > GPT-4o 736
- Qwen3-VL DocVQA 96.5, MathVista 85.8
- InternVL3-78B MMMU 72.2 (오픈 SOTA, GPT-4o 수준)
3. OCR 시장의 분기
VLM-OCR이 전통 OCR + 상용 API 모두 능가:
PaddleOCR-VL 92.86 > GPT-5.4 85.80 (OmniDocBench)
비용 우위:
자체 호스팅 VLM-OCR이 벤더 API 대비 167배 저렴 + 더 정확
4. 소형 모델의 약진
- MiniCPM-V 4.5 (8B) > GPT-4o-latest, Gemini 2.0 Pro
- Phi-4-Reasoning-Vision-15B > 더 큰 모델들과 경쟁
- Kimi-VL-A3B (3B 활성) = MathVista 80.1
- 모바일/엣지 VLM 시대 도래
5. 컨텍스트 확대
| 모델 | 컨텍스트 |
|---|---|
| Llama 4 Scout | 10M ⭐ |
| Gemini 3 Pro | 2M |
| Claude Sonnet 4.6 | 1M (베타) |
| GPT-5 | 400K |
| Qwen3-VL | 256K (1M 확장) |
| Pixtral | 128K |
6. 임베딩의 멀티모달 통합
- Cohere Embed v4 = 텍스트+이미지 동일 벡터 공간 (유일한 메이저 상용)
- Qwen3-VL-Embedding = 텍스트/이미지/스크린샷/비디오 통합
6. 한국어 환경 추가 추천
| 용도 | 추천 |
|---|---|
| 한국어 문서 AI | Solar Pro (Document AI) |
| 한국어 + 다국어 OCR | Qwen3-VL (39언어), Gemma 3 (140+ 언어) |
| 로컬 한국어 멀티모달 | InternVL 3.5, Qwen3-VL 8B |