임베딩 모델 비교

텍스트 임베딩 모델은 텍스트를 고차원 벡터로 변환하는 모델입니다. RAG, 시맨틱 검색, 문서 클러스터링, 분류 등에 핵심적으로 사용됩니다.

성능 평가 기준: MTEB (Massive Text Embedding Benchmark) — 8가지 태스크, 58개 데이터셋, 112개 언어 평가

주요 모델 비교 (2025~2026 기준)

모델	제공사	MTEB 점수	차원	최대 토큰	특징
text-embedding-3-large	OpenAI	64.6	3072 (조절 가능)	8191	안정적, 생태계 최대
text-embedding-3-small	OpenAI	62.3	1536 (조절 가능)	8191	경제적
embed-v4	Cohere	65.2	1024	128K	다국어, 멀티모달
Gemini Embedding	Google	-	3072	8192	Gemini 생태계

오픈소스 — 대형

모델	파라미터	MTEB 점수	차원	최대 토큰	언어	라이선스
Qwen3-Embedding-8B	8B	70.58 (다국어 1위)	4096	32K	100+	Apache 2.0
Qwen3-Embedding-4B	4B	-	2560	32K	100+	Apache 2.0
Qwen3-Embedding-0.6B	0.6B	-	1024 (32~1024)	32K	100+	Apache 2.0

모델	파라미터	MTEB 점수	차원	최대 토큰	언어	특징
BGE-M3	~570M	63.0	1024	8192	100+	Dense+Sparse+ColBERT 동시 지원
gte-multilingual-base	305M	-	768	8192	70+	Alibaba, 탄력적 임베딩 차원
Jina Embeddings v4	3B	-	2048	8192	30+	멀티모달 (텍스트+이미지)
Nomic Embed Text V2	475M	-	768	512	다국어	최초 MoE 임베딩 아키텍처
EmbeddingGemma-300M	300M	-	768	-	100+	구글 Gemma 기반, 엣지 최적화
all-mpnet-base-v2	110M	-	768	384	영어	범용, Apache 2.0

BAAI(북경인공지능연구원) 개발, 세 가지 검색 방식을 단일 모델로 동시 지원:

→ 하이브리드 검색 파이프라인에 단일 모델로 활용 가능

Alibaba Qwen 팀, LLM 사전학습 가중치 기반 파인튜닝:

Instruction-aware: 쿼리에 태스크 지시문 삽입으로 성능 향상
```
query = "Instruct: Retrieve relevant passages\nQuery: " + user_query
```
Matryoshka 차원 조절: 전체 차원 → 32까지 압축 가능 (저장/속도 트레이드오프)
MTEB 다국어 리더보드 1위 (70.58점, 2025.06 기준)

태스크	설명	주요 활용
Retrieval	쿼리-문서 관련도	RAG, 검색
STS (Semantic Textual Similarity)	문장 유사도	중복 탐지
Classification	텍스트 분류	감성 분석
Clustering	문서 군집화	토픽 모델링
Reranking	검색 결과 재순위	RAG 정밀도 향상
PairClassification	문장 쌍 관계	NLI, 중복
Summarization	요약 품질 평가	요약 모델
BitextMining	병렬 문장 탐지	번역 품질

상황	추천
RAG, 한국어 포함 다국어	BGE-M3 또는 Qwen3-Embedding
최고 성능 오픈소스	Qwen3-Embedding-8B
경량 로컬 배포	Qwen3-Embedding-0.6B, EmbeddingGemma-300M
하이브리드 검색 (Dense+Sparse)	BGE-M3
멀티모달 (텍스트+이미지)	Jina Embeddings v4
OpenAI 생태계, 간편함	text-embedding-3-small/large
긴 문서 처리 (128K 토큰)	Cohere embed-v4
비용 최소화	text-embedding-3-small, all-mpnet-base-v2

임베딩 검색 후 정밀도 향상을 위해 사용: