개요

오픈소스 LLM은 모델 가중치가 공개되어 누구나 다운로드, 수정, 배포할 수 있는 Large Language Models (LLMs)입니다. 2025년을 기점으로 오픈소스 LLM의 성능이 상용 모델에 근접하며, 로컬 실행이 실용적인 수준에 도달했습니다.

주요 오픈소스 LLM

Meta - Llama 4

모델전체 파라미터활성 파라미터전문가 수컨텍스트
Llama 4 Scout109B17B1610M 토큰
Llama 4 Maverick400B17B1281M 토큰
Llama 4 Behemoth (미공개)2T288B16-
  • 아키텍처: MoE (Mixture of Experts)
  • 학습 데이터: 40조 토큰, 200개 언어
  • 멀티모달: 텍스트 + 이미지 (Early Fusion)
  • Scout는 단일 H100 GPU에서 Int4 양자화로 실행 가능
  • 라이선스: Llama 4 Community License (상용 제품에 “Built with Llama” 표기 필요)

Alibaba - Qwen 3

Dense 모델:

모델파라미터동급 성능 (Qwen 2.5 대비)
Qwen3-0.6B0.6B-
Qwen3-1.7B1.7B≈ Qwen2.5-3B
Qwen3-4B4B≈ Qwen2.5-7B
Qwen3-8B8B≈ Qwen2.5-14B
Qwen3-14B14B≈ Qwen2.5-32B
Qwen3-32B32B≈ Qwen2.5-72B

MoE 모델:

모델전체 파라미터활성 파라미터특징
Qwen3-30B-A3B30B3B단일 A100에서 실행
Qwen3-235B-A22B235B22B플래그십 오픈소스
Qwen3-Coder-480B-A35B480B35B최대 오픈소스 코딩 모델
  • 학습 데이터: 36조 토큰, 119개 언어
  • 하이브리드 추론: thinking/non-thinking 모드 전환
  • 컨텍스트: 128K (Dense), 256K+ (Coder), 1M+ (2507 버전)
  • AIME’25에서 O3를 능가 (92 vs 88.0)
  • 라이선스: Apache 2.0 (완전한 상용 자유)

DeepSeek

모델전체 파라미터활성 파라미터컨텍스트특징
DeepSeek-V3671B37B128K범용 MoE
DeepSeek-V3.1685B37B128Kthinking/non-thinking 전환
DeepSeek-R1671B37B128K추론(Reasoning) 특화
  • 학습 비용: R1 약 $5.6M으로 추정 (극도로 저렴)
  • API 가격: 입력 $0.07/M 토큰 (캐시 히트 시)
  • R1 Distill 변형: 1.5B ~ 70B (Qwen/Llama 기반 증류 모델)
    • DeepSeek-R1-Distill-Qwen-32B는 OpenAI o1-mini를 능가
  • 라이선스: MIT (제한 없음)

Google - Gemma 3

모델파라미터멀티모달컨텍스트
Gemma 3 270M270M텍스트만32K
Gemma 3 1B1B텍스트만32K
Gemma 3 4B4B텍스트+이미지128K
Gemma 3 12B12B텍스트+이미지128K
Gemma 3 27B27B텍스트+이미지128K
  • Gemini 2.0과 동일 기술 기반
  • 140개 이상 언어 지원
  • QAT 양자화로 RTX 3090에서 27B 모델 실행 가능
  • Gemma-3-27B-IT는 Gemini 1.5 Pro를 벤치마크에서 능가
  • 라이선스: Gemma Terms of Use (상용 가능)

Mistral AI

모델파라미터특징
Mistral Small 324B범용, 네이티브 함수 호출
Mixtral 8x22B141B (MoE)고성능 MoE
Ministral 3B3B모바일/엣지
Ministral 8B8B모바일/엣지
Codestral22B코딩 특화 (Fill-in-the-Middle)
  • Ministral 3B/8B는 모바일에서 500ms 이하 응답
  • 라이선스: Apache 2.0

기타 주목 모델

  • Microsoft Phi-4: 14B 파라미터로 70B급 성능
  • xAI Grok-1: 314B, Apache 2.0
  • Cohere Command R+: 104B, RAG 특화
  • StarCoder2: 코딩 특화, 완전 오픈소스

한국어 특화 오픈소스 LLM

  • Upstage SOLAR: Apache 2.0, 상용 친화적
  • Kakao Kanana: Apache 2.0, 한국어 특화
  • Polyglot-Ko (EleutherAI): 한국어 학습 특화

코딩 특화 모델 비교

모델파라미터벤치마크특징
Qwen3-Coder-480B-A35B480B (35B 활성)-최대 오픈소스 코딩 모델
Qwen2.5-Coder7B/32BHumanEval 91%GPT-4o(90.2%) 능가
DeepSeek-Coder-V2236B (16B 활성)-MoE 효율적 운용
Codestral (Mistral)22B-Fill-in-the-Middle 특화
Phi-4 (MS)14B-소형 고성능

용도별 추천

용도추천 모델
범용 채팅/문서 작성Llama 4 Maverick, Qwen3-32B
수학/추론Qwen3-235B, DeepSeek-R1
코딩Qwen2.5-Coder, DeepSeek-Coder-V2
다국어Qwen3 (119개 언어)
엣지/모바일Ministral 3B/8B, Gemma 3 1B
비용 최적화DeepSeek-V3, Mixtral
한국어SOLAR, Kanana, Polyglot-Ko

하드웨어 요구사항 가이드

GPU VRAM실행 가능 모델
~3GBh2ovl-mississippi-800m, Gemma 3 270M
~5GBQwen2.5-VL-3B-AWQ, Ministral 3B
~8GBGemma 3 4B, Ministral 8B, Phi-4 (양자화)
~16GBQwen3-8B, Llama 3.3 8B
~24GBMistral Small 3 (24B), Gemma 3 27B (QAT)
~48GBQwen3-32B
~80GB (A100)Qwen3-30B-A3B, Llama 4 Scout (양자화)
8x H100/H200DeepSeek-R1 (671B), Qwen3-235B

라이선스 비교

모델라이선스상용 제한
DeepSeekMIT없음
Qwen 3Apache 2.0없음
MistralApache 2.0없음
Gemma 3Gemma Terms일부 제한
Llama 4Llama Community브랜딩 표기 필요

로컬 실행 도구

  • Ollama: 간편한 로컬 LLM 실행 (CLI)
  • llama.cpp: CPU/GPU 경량 추론 (GGUF 포맷)
  • vLLM: 고성능 서빙 엔진
  • LM Studio: GUI 기반 로컬 LLM
  • Jan: 오픈소스 데스크톱 AI 앱

트렌드 (2025~2026)

  • MoE 아키텍처 대세: 대부분의 대형 모델이 MoE 채택 (전체 파라미터 대비 10% 활성화로 비용 절감)
  • 로컬 실행 실용화: 양자화 기술 발전으로 소비자 GPU에서도 고성능 모델 실행 가능
  • 하이브리드 추론: thinking/non-thinking 모드 전환 (DeepSeek-V3.1, Qwen3)
  • 특화 모델: 범용보다 용도별 특화 모델 스택 구축 추세
  • 중국 모델 약진: Qwen, DeepSeek가 벤치마크에서 상용 모델 능가

관련 항목