Open Source LLM

개요

오픈소스 LLM은 모델 가중치가 공개되어 누구나 다운로드, 수정, 배포할 수 있는 Large Language Models (LLMs)입니다. 2025년을 기점으로 오픈소스 LLM의 성능이 상용 모델에 근접하며, 로컬 실행이 실용적인 수준에 도달했습니다.

주요 오픈소스 LLM

Meta - Llama 4

모델	전체 파라미터	활성 파라미터	전문가 수	컨텍스트
Llama 4 Scout	109B	17B	16	10M 토큰
Llama 4 Maverick	400B	17B	128	1M 토큰
Llama 4 Behemoth (미공개)	2T	288B	16	-

아키텍처: MoE (Mixture of Experts)
학습 데이터: 40조 토큰, 200개 언어
멀티모달: 텍스트 + 이미지 (Early Fusion)
Scout는 단일 H100 GPU에서 Int4 양자화로 실행 가능
라이선스: Llama 4 Community License (상용 제품에 “Built with Llama” 표기 필요)

Alibaba - Qwen 3

Dense 모델:

모델	파라미터	동급 성능 (Qwen 2.5 대비)
Qwen3-0.6B	0.6B	-
Qwen3-1.7B	1.7B	≈ Qwen2.5-3B
Qwen3-4B	4B	≈ Qwen2.5-7B
Qwen3-8B	8B	≈ Qwen2.5-14B
Qwen3-14B	14B	≈ Qwen2.5-32B
Qwen3-32B	32B	≈ Qwen2.5-72B

MoE 모델:

모델	전체 파라미터	활성 파라미터	특징
Qwen3-30B-A3B	30B	3B	단일 A100에서 실행
Qwen3-235B-A22B	235B	22B	플래그십 오픈소스
Qwen3-Coder-480B-A35B	480B	35B	최대 오픈소스 코딩 모델

학습 데이터: 36조 토큰, 119개 언어
하이브리드 추론: thinking/non-thinking 모드 전환
컨텍스트: 128K (Dense), 256K+ (Coder), 1M+ (2507 버전)
AIME’25에서 O3를 능가 (92 vs 88.0)
라이선스: Apache 2.0 (완전한 상용 자유)

DeepSeek

모델	전체 파라미터	활성 파라미터	컨텍스트	특징
DeepSeek-V3	671B	37B	128K	범용 MoE
DeepSeek-V3.1	685B	37B	128K	thinking/non-thinking 전환
DeepSeek-R1	671B	37B	128K	추론(Reasoning) 특화

학습 비용: R1 약 $5.6M으로 추정 (극도로 저렴)
API 가격: 입력 $0.07/M 토큰 (캐시 히트 시)
R1 Distill 변형: 1.5B ~ 70B (Qwen/Llama 기반 증류 모델)
- DeepSeek-R1-Distill-Qwen-32B는 OpenAI o1-mini를 능가
라이선스: MIT (제한 없음)

Google - Gemma 3

모델	파라미터	멀티모달	컨텍스트
Gemma 3 270M	270M	텍스트만	32K
Gemma 3 1B	1B	텍스트만	32K
Gemma 3 4B	4B	텍스트+이미지	128K
Gemma 3 12B	12B	텍스트+이미지	128K
Gemma 3 27B	27B	텍스트+이미지	128K

Gemini 2.0과 동일 기술 기반
140개 이상 언어 지원
QAT 양자화로 RTX 3090에서 27B 모델 실행 가능
Gemma-3-27B-IT는 Gemini 1.5 Pro를 벤치마크에서 능가
라이선스: Gemma Terms of Use (상용 가능)

Mistral AI

모델	파라미터	특징
Mistral Small 3	24B	범용, 네이티브 함수 호출
Mixtral 8x22B	141B (MoE)	고성능 MoE
Ministral 3B	3B	모바일/엣지
Ministral 8B	8B	모바일/엣지
Codestral	22B	코딩 특화 (Fill-in-the-Middle)

Ministral 3B/8B는 모바일에서 500ms 이하 응답
라이선스: Apache 2.0

기타 주목 모델

Microsoft Phi-4: 14B 파라미터로 70B급 성능
xAI Grok-1: 314B, Apache 2.0
Cohere Command R+: 104B, RAG 특화
StarCoder2: 코딩 특화, 완전 오픈소스

한국어 특화 오픈소스 LLM

Upstage SOLAR: Apache 2.0, 상용 친화적
Kakao Kanana: Apache 2.0, 한국어 특화
Polyglot-Ko (EleutherAI): 한국어 학습 특화

코딩 특화 모델 비교

모델	파라미터	벤치마크	특징
Qwen3-Coder-480B-A35B	480B (35B 활성)	-	최대 오픈소스 코딩 모델
Qwen2.5-Coder	7B/32B	HumanEval 91%	GPT-4o(90.2%) 능가
DeepSeek-Coder-V2	236B (16B 활성)	-	MoE 효율적 운용
Codestral (Mistral)	22B	-	Fill-in-the-Middle 특화
Phi-4 (MS)	14B	-	소형 고성능

용도별 추천

용도	추천 모델
범용 채팅/문서 작성	Llama 4 Maverick, Qwen3-32B
수학/추론	Qwen3-235B, DeepSeek-R1
코딩	Qwen2.5-Coder, DeepSeek-Coder-V2
다국어	Qwen3 (119개 언어)
엣지/모바일	Ministral 3B/8B, Gemma 3 1B
비용 최적화	DeepSeek-V3, Mixtral
한국어	SOLAR, Kanana, Polyglot-Ko

하드웨어 요구사항 가이드

GPU VRAM	실행 가능 모델
~3GB	h2ovl-mississippi-800m, Gemma 3 270M
~5GB	Qwen2.5-VL-3B-AWQ, Ministral 3B
~8GB	Gemma 3 4B, Ministral 8B, Phi-4 (양자화)
~16GB	Qwen3-8B, Llama 3.3 8B
~24GB	Mistral Small 3 (24B), Gemma 3 27B (QAT)
~48GB	Qwen3-32B
~80GB (A100)	Qwen3-30B-A3B, Llama 4 Scout (양자화)
8x H100/H200	DeepSeek-R1 (671B), Qwen3-235B

라이선스 비교

모델	라이선스	상용 제한
DeepSeek	MIT	없음
Qwen 3	Apache 2.0	없음
Mistral	Apache 2.0	없음
Gemma 3	Gemma Terms	일부 제한
Llama 4	Llama Community	브랜딩 표기 필요

로컬 실행 도구

Ollama: 간편한 로컬 LLM 실행 (CLI)
llama.cpp: CPU/GPU 경량 추론 (GGUF 포맷)
vLLM: 고성능 서빙 엔진
LM Studio: GUI 기반 로컬 LLM
Jan: 오픈소스 데스크톱 AI 앱

트렌드 (2025~2026)

MoE 아키텍처 대세: 대부분의 대형 모델이 MoE 채택 (전체 파라미터 대비 10% 활성화로 비용 절감)
로컬 실행 실용화: 양자화 기술 발전으로 소비자 GPU에서도 고성능 모델 실행 가능
하이브리드 추론: thinking/non-thinking 모드 전환 (DeepSeek-V3.1, Qwen3)
특화 모델: 범용보다 용도별 특화 모델 스택 구축 추세
중국 모델 약진: Qwen, DeepSeek가 벤치마크에서 상용 모델 능가

관련 항목