개요
LLM Serving Platform은 Large Language Models (LLMs)를 프로덕션 환경에서 효율적으로 배포하고 서빙하기 위한 프레임워크 및 도구입니다. 높은 처리량, 낮은 지연 시간, 효율적인 메모리 관리가 핵심 과제입니다.
프로덕션 서빙 엔진
- 개발: UC Berkeley → PyTorch Foundation
- 핵심 기술: PagedAttention, Continuous Batching
- 특징: 218+ 모델 지원 (최다), 동시성 스케일링 우수, 설정 간편
- 최적 시나리오: 범용 프로덕션 서빙
- 하드웨어: NVIDIA, AMD, TPU, AWS Neuron, CPU
- GitHub: https://github.com/vllm-project/vllm
SGLang
- 개발: LMSYS (vLLM과 동일 연구 그룹)
- 핵심 기술: RadixAttention (KV 캐시 Radix Tree 관리)
- 특징:
- KV 캐시 재사용률: 85
95% (vLLM PagedAttention: 1525%)
- vLLM 대비 최대 3.1x 처리량 (Llama-70B)
- Compressed FSM으로 JSON 디코딩 3x 가속
- Zero-overhead 스케줄러: 95~98% GPU 활용률
- 최적 시나리오: 에이전트, RAG, 반복 프롬프트가 많은 워크로드
- 배포 규모: 전 세계 400,000+ GPU, 일일 수조 토큰 생성
- 사용 기업: xAI, AMD, NVIDIA, LinkedIn, Cursor, Oracle, Google, Azure, AWS
- GitHub: https://github.com/sgl-project/sglang
- 개발: NVIDIA
- 핵심 기술: CUDA Graph 최적화, Fused Kernel, Tensor Core 가속
- 특징:
- 저동시성에서 TTFT 최우수 (35~50ms)
- B200 GPU에서 SGLang/vLLM 대비 전 지표 우위
- FP4/FP8/INT4/INT8 양자화, Speculative Decoding (EAGLE-3)
- AutoDeploy: PyTorch 모델 자동 최적화 컴파일 (베타)
- Docker 기반 배포, 설정 복잡
- 최적 시나리오: NVIDIA GPU 최대 효율, 대규모 프로덕션
- 연동: Triton Inference Server, NeMo, NIM
- GitHub: https://github.com/NVIDIA/TensorRT-LLM
- → 상세: TensorRT-LLM
- 개발: NVIDIA
- 역할: 모델 서빙 레이어 및 오케스트레이터 (추론 엔진 자체가 아님)
- 특징:
- 멀티 프레임워크: TensorRT, PyTorch, ONNX, OpenVINO, Python, RAPIDS
- 크로스 플랫폼: NVIDIA GPU, 비NVIDIA 가속기, x86/ARM CPU
- Dynamic Batching, 모델 앙상블 (DAG 파이프라인)
- Stateless/Stateful 모델 스케줄링
- HTTP/REST, gRPC, C API 지원
- Kubernetes 스케일링, Prometheus 모니터링
- 사용 기업: 25,000+ (Microsoft, Samsung, Siemens, Snapchat 등)
- 최적 시나리오: NVIDIA 에코시스템 기반 엔터프라이즈 멀티 모델 서빙
- GitHub: https://github.com/triton-inference-server/server
- → 상세: Triton Inference Server
HuggingFace TGI (Text Generation Inference)
- 개발: Hugging Face
- 핵심 기술: Flash Attention, Paged Attention, KV-caching
- 특징:
- 대부분의 오픈소스 LLM 출시 당일 지원
- Zero-config 모드 (v3): 하드웨어 자동 최적화
- OpenAI 호환 API, Prometheus, OpenTelemetry
- bitsandbytes, GPTQ 양자화
- 현재 상태: 2025년 12월부터 유지보수 모드 (신규 기능 개발 중단)
- GitHub: https://github.com/huggingface/text-generation-inference
클라우드 추론 API 플랫폼
셀프호스팅 없이 API 호출만으로 오픈소스 LLM을 사용할 수 있는 서비스들. 자체 하드웨어로 최적화된 추론을 제공하며, OpenAI 호환 API가 표준.
Groq
| 항목 | 내용 |
|---|
| 하드웨어 | LPU (Language Processing Unit) — 자체 ASIC |
| 핵심 강점 | 최저 지연 시간 (TTFT 0.1~0.2초), 결정론적 실행 |
| 속도 | Llama 3 70B: ~300 tok/s (GPU 대비 10배+) |
| 지원 모델 | Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral, Qwen, DeepSeek 등 |
| 가격 | Llama 4 Scout 0.11/0.34, Llama 3.3 70B 0.59/0.79 ($/M tok) |
| 현황 | 190만+ 개발자, 2025.12 NVIDIA $200억 인수 |
| API | https://console.groq.com |
→ 상세: AI Inference Accelerator
Cerebras
| 항목 | 내용 |
|---|
| 하드웨어 | WSE-3 (Wafer Scale Engine) — 세계 최대 AI 칩 |
| 핵심 강점 | 최고 처리량 (Llama 70B: 2,314 tok/s) |
| 속도 | Llama 4 Maverick 400B: 2,500 tok/s |
| 지원 모델 | Llama 4, Llama 3, Qwen, DeepSeek R1 등 |
| 가격 | Llama 3.1 70B $0.60/M tok |
| 현황 | OpenAI $100억 투자, 2026 Q2 IPO 예정 |
| API | https://cloud.cerebras.ai |
→ 상세: AI Inference Accelerator
Together AI
| 항목 | 내용 |
|---|
| 하드웨어 | NVIDIA GPU 클러스터 |
| 핵심 강점 | 오픈소스 모델 최다 지원, 파인튜닝 API 제공 |
| 지원 모델 | 200+ 모델 (Llama, Mixtral, Qwen, DBRX, Yi 등) |
| 가격 | Llama 3.1 70B 0.88/0.88, 8B 0.18/0.18 |
| 특징 | 서버리스/전용 배포, 커스텀 모델 호스팅, Mixture of Agents |
| API | https://api.together.xyz |
Fireworks AI
| 항목 | 내용 |
|---|
| 하드웨어 | NVIDIA GPU + 자체 최적화 엔진 (FireAttention) |
| 핵심 강점 | 속도 + 가격 균형, 함수 호출 최적화 |
| 지원 모델 | Llama, Mixtral, Qwen, Gemma, FireFunction (자체 모델) |
| 가격 | Llama 3.1 70B 0.90/0.90 |
| 특징 | On-demand/Serverless/Dedicated, 모델 파인튜닝, JSON 모드 |
| API | https://fireworks.ai |
SambaNova Cloud
| 항목 | 내용 |
|---|
| 하드웨어 | RDU (Reconfigurable Dataflow Unit) — 자체 칩 |
| 핵심 강점 | 학습+추론 모두 가능한 자체 칩 |
| 지원 모델 | Llama 4, Llama 3, QwQ, DeepSeek 등 |
| 가격 | 무료 티어 제공, 유료 플랜 별도 |
| API | https://cloud.sambanova.ai |
→ 상세: AI Inference Accelerator
기타 추론 API
| 플랫폼 | 특징 |
|---|
| Lepton AI | 서버리스 AI 추론, 빠른 배포 |
| Replicate | 오픈소스 모델 원클릭 배포, GPU 자동 스케일링 |
| Modal | Python 함수→클라우드 GPU 실행, 개발자 경험 우수 |
| Baseten | 모델 패키징(Truss) + 서빙, Mistral 공식 파트너 |
| Deepinfra | 저가 추론 API, 다양한 오픈소스 모델 |
| Perplexity API | Sonar 모델 (웹 검색 통합 추론) |
| Anyscale (Endpoints) | Ray 기반, 분산 추론 |
클라우드 추론 API 비교
| 플랫폼 | 속도 | 가격 | 모델 수 | 파인튜닝 | 자체 칩 | 최적 용도 |
|---|
| Groq | 최고 | 저가 | 중간 | X | LPU | 실시간 챗봇, 저지연 |
| Cerebras | 최고 | 중간 | 중간 | X | WSE | 대량 처리, 배치 |
| Together AI | 높음 | 중간 | 최다 | O | X | 범용, 파인튜닝 |
| Fireworks AI | 높음 | 중간 | 많음 | O | X | 함수 호출, 에이전트 |
| SambaNova | 높음 | 무료 티어 | 중간 | X | RDU | 체험, 프로토타입 |
| Replicate | 중간 | 종량제 | 많음 | X | X | 빠른 프로토타입 |
| Deepinfra | 중간 | 최저 | 많음 | X | X | 비용 절감 |
로컬 추론 도구
Ollama
- 대상: 개발자, 애플리케이션 통합
- 특징:
ollama run llama3 한 줄로 모델 실행
- 백그라운드 서버 + REST API
- LM Studio 대비 10~20% 빠른 추론
- NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) 지원
- MCP 프로토콜 지원
- 최적 시나리오: 로컬 개발, API 통합
- 공식 사이트: https://ollama.com
llama.cpp
- 개발: Georgi Gerganov
- 특징:
- C/C++ 구현, 모든 서빙 도구의 기반 엔진
- CPU 전용 실행 가능 (Vulkan, Metal, CUDA 지원)
- 직접 양자화 (GGUF 포맷)
- Ollama, LM Studio의 백엔드
- 라즈베리파이에서도 실행 가능
- 최적 시나리오: 최대 제어, 엣지 디바이스, 임베디드
- GitHub: https://github.com/ggerganov/llama.cpp
LM Studio
- 대상: 비개발자, 초보자, 빠른 프로토타이핑
- 특징:
- GUI 기반 데스크톱 앱
- Hugging Face 모델 원클릭 다운로드
- GGUF 포맷 지원
- OpenAI 호환 로컬 API 서버
- Vulkan 지원
- 최적 시나리오: 모델 테스트, 프롬프트 엔지니어링
- 공식 사이트: https://lmstudio.ai
Jan
프로덕션 엔진 비교
| 특성 | vLLM | SGLang | TensorRT-LLM | Triton | TGI |
|---|
| 핵심 기술 | PagedAttention | RadixAttention | CUDA 최적화 | 오케스트레이터 | Flash/Paged Attention |
| 처리량 | 높음 | 최고 | 높음 (저동시성) | - | 높음 |
| 설정 난이도 | 낮음 | 낮음 | 높음 | 중간 | 낮음 |
| 모델 지원 | 218+ | 다수 | NVIDIA 최적화 | 멀티 프레임워크 | HF 모델 |
| GPU 활용률 | 좋음 | 95~98% | 최고 | - | 좋음 |
| 현재 상태 | 활발 | 활발 | 활발 | 활발 | 유지보수 모드 |
로컬 도구 비교
| 특성 | Ollama | llama.cpp | LM Studio | Jan |
|---|
| 인터페이스 | CLI + API | CLI + 웹UI | GUI | GUI |
| 난이도 | 쉬움 | 어려움 | 매우 쉬움 | 쉬움 |
| 성능 | 우수 | 최고 | 좋음 | 좋음 |
| 양자화 | 자동 | 직접 제어 | 사전 양자화만 | 자동 |
| 최적 용도 | 개발/프로덕션 | 최대 제어/엣지 | 테스트/입문 | 데스크톱 AI |
| 오픈소스 | O | O | X | O |
용도별 추천
| 용도 | 추천 |
|---|
| 범용 프로덕션 서빙 | vLLM |
| 에이전트/RAG (프리픽스 재사용) | SGLang |
| NVIDIA GPU 최대 효율 | TensorRT-LLM + Triton |
| 엔터프라이즈 멀티 모델 | Triton Inference Server |
| 로컬 개발 + API | Ollama |
| 로컬 테스트/입문 | LM Studio |
| 엣지/임베디드 | llama.cpp |
2025~2026 트렌드
- torch.compile 통합: vLLM V1 기본 활성화, SGLang도 적용 중
- Prefill/Decode 분리: 단계별로 다른 하드웨어 사용 (SGLang, vLLM 구현)
- OpenAI API 호환 표준화: 모든 주요 도구가 호환 API 제공
- MCP 프로토콜: 도구 호출 표준화 확산
- NPU 가속: 전용 AI 칩 지원 확대
- 프로덕션 양분: SGLang vs vLLM이 사실상 양강 구도
관련 항목