개요
텍스트 임베딩 모델은 텍스트를 고차원 벡터로 변환하는 모델입니다. RAG, 시맨틱 검색, 문서 클러스터링, 분류 등에 핵심적으로 사용됩니다.
성능 평가 기준: MTEB (Massive Text Embedding Benchmark) — 8가지 태스크, 58개 데이터셋, 112개 언어 평가
주요 모델 비교 (2025~2026 기준)
상용 API
| 모델 | 제공사 | MTEB 점수 | 차원 | 최대 토큰 | 특징 |
|---|
| text-embedding-3-large | OpenAI | 64.6 | 3072 (조절 가능) | 8191 | 안정적, 생태계 최대 |
| text-embedding-3-small | OpenAI | 62.3 | 1536 (조절 가능) | 8191 | 경제적 |
| embed-v4 | Cohere | 65.2 | 1024 | 128K | 다국어, 멀티모달 |
| Gemini Embedding | Google | - | 3072 | 8192 | Gemini 생태계 |
오픈소스 — 대형
| 모델 | 파라미터 | MTEB 점수 | 차원 | 최대 토큰 | 언어 | 라이선스 |
|---|
| Qwen3-Embedding-8B | 8B | 70.58 (다국어 1위) | 4096 | 32K | 100+ | Apache 2.0 |
| Qwen3-Embedding-4B | 4B | - | 2560 | 32K | 100+ | Apache 2.0 |
| Qwen3-Embedding-0.6B | 0.6B | - | 1024 (32~1024) | 32K | 100+ | Apache 2.0 |
오픈소스 — 경량/다국어
| 모델 | 파라미터 | MTEB 점수 | 차원 | 최대 토큰 | 언어 | 특징 |
|---|
| BGE-M3 | ~570M | 63.0 | 1024 | 8192 | 100+ | Dense+Sparse+ColBERT 동시 지원 |
| gte-multilingual-base | 305M | - | 768 | 8192 | 70+ | Alibaba, 탄력적 임베딩 차원 |
| Jina Embeddings v4 | 3B | - | 2048 | 8192 | 30+ | 멀티모달 (텍스트+이미지) |
| Nomic Embed Text V2 | 475M | - | 768 | 512 | 다국어 | 최초 MoE 임베딩 아키텍처 |
| EmbeddingGemma-300M | 300M | - | 768 | - | 100+ | 구글 Gemma 기반, 엣지 최적화 |
| all-mpnet-base-v2 | 110M | - | 768 | 384 | 영어 | 범용, Apache 2.0 |
BGE-M3 심층
BAAI(북경인공지능연구원) 개발, 세 가지 검색 방식을 단일 모델로 동시 지원:
| 검색 방식 | 설명 | 특징 |
|---|
| Dense Retrieval | 벡터 유사도 (코사인) | 시맨틱 매칭 |
| Sparse Retrieval | BM25 스타일 키워드 가중치 | 정확 키워드 매칭 |
| Multi-Vector (ColBERT) | 토큰별 상호작용 | 세밀한 문장 내 관계 |
→ 하이브리드 검색 파이프라인에 단일 모델로 활용 가능
Qwen3 Embedding
Alibaba Qwen 팀, LLM 사전학습 가중치 기반 파인튜닝:
임베딩 태스크 유형 (MTEB 기준)
| 태스크 | 설명 | 주요 활용 |
|---|
| Retrieval | 쿼리-문서 관련도 | RAG, 검색 |
| STS (Semantic Textual Similarity) | 문장 유사도 | 중복 탐지 |
| Classification | 텍스트 분류 | 감성 분석 |
| Clustering | 문서 군집화 | 토픽 모델링 |
| Reranking | 검색 결과 재순위 | RAG 정밀도 향상 |
| PairClassification | 문장 쌍 관계 | NLI, 중복 |
| Summarization | 요약 품질 평가 | 요약 모델 |
| BitextMining | 병렬 문장 탐지 | 번역 품질 |
선택 가이드
| 상황 | 추천 |
|---|
| RAG, 한국어 포함 다국어 | BGE-M3 또는 Qwen3-Embedding |
| 최고 성능 오픈소스 | Qwen3-Embedding-8B |
| 경량 로컬 배포 | Qwen3-Embedding-0.6B, EmbeddingGemma-300M |
| 하이브리드 검색 (Dense+Sparse) | BGE-M3 |
| 멀티모달 (텍스트+이미지) | Jina Embeddings v4 |
| OpenAI 생태계, 간편함 | text-embedding-3-small/large |
| 긴 문서 처리 (128K 토큰) | Cohere embed-v4 |
| 비용 최소화 | text-embedding-3-small, all-mpnet-base-v2 |
리랭커 (Reranker)
임베딩 검색 후 정밀도 향상을 위해 사용:
| 모델 | 제공사 | 특징 |
|---|
| BGE-Reranker-v2-M3 | BAAI | BGE-M3와 쌍 사용 최적 |
| Cohere Rerank | Cohere | API 기반, 고성능 |
| Jina Reranker v2 | Jina AI | 다국어, 오픈소스 |
| ms-marco-MiniLM | Hugging Face | 영어 특화, 경량 |
MTEB 리더보드
관련 항목