LLM Serving Platform

개요

LLM Serving Platform은 Large Language Models (LLMs)를 프로덕션 환경에서 효율적으로 배포하고 서빙하기 위한 프레임워크 및 도구입니다. 높은 처리량, 낮은 지연 시간, 효율적인 메모리 관리가 핵심 과제입니다.

프로덕션 서빙 엔진

vLLM

개발: UC Berkeley → PyTorch Foundation
핵심 기술: PagedAttention, Continuous Batching
특징: 218+ 모델 지원 (최다), 동시성 스케일링 우수, 설정 간편
최적 시나리오: 범용 프로덕션 서빙
하드웨어: NVIDIA, AMD, TPU, AWS Neuron, CPU
GitHub: https://github.com/vllm-project/vllm

SGLang

개발: LMSYS (vLLM과 동일 연구 그룹)
핵심 기술: RadixAttention (KV 캐시 Radix Tree 관리)
특징:
- KV 캐시 재사용률: 85~~95% (vLLM PagedAttention: 15~~25%)
- vLLM 대비 최대 3.1x 처리량 (Llama-70B)
- Compressed FSM으로 JSON 디코딩 3x 가속
- Zero-overhead 스케줄러: 95~98% GPU 활용률
최적 시나리오: 에이전트, RAG, 반복 프롬프트가 많은 워크로드
배포 규모: 전 세계 400,000+ GPU, 일일 수조 토큰 생성
사용 기업: xAI, AMD, NVIDIA, LinkedIn, Cursor, Oracle, Google, Azure, AWS
GitHub: https://github.com/sgl-project/sglang

TensorRT-LLM

개발: NVIDIA
핵심 기술: CUDA Graph 최적화, Fused Kernel, Tensor Core 가속
특징:
- 저동시성에서 TTFT 최우수 (35~50ms)
- B200 GPU에서 SGLang/vLLM 대비 전 지표 우위
- FP4/FP8/INT4/INT8 양자화, Speculative Decoding (EAGLE-3)
- AutoDeploy: PyTorch 모델 자동 최적화 컴파일 (베타)
- Docker 기반 배포, 설정 복잡
최적 시나리오: NVIDIA GPU 최대 효율, 대규모 프로덕션
연동: Triton Inference Server, NeMo, NIM
GitHub: https://github.com/NVIDIA/TensorRT-LLM
→ 상세: TensorRT-LLM

Triton Inference Server (NVIDIA Dynamo-Triton)

개발: NVIDIA
역할: 모델 서빙 레이어 및 오케스트레이터 (추론 엔진 자체가 아님)
특징:
- 멀티 프레임워크: TensorRT, PyTorch, ONNX, OpenVINO, Python, RAPIDS
- 크로스 플랫폼: NVIDIA GPU, 비NVIDIA 가속기, x86/ARM CPU
- Dynamic Batching, 모델 앙상블 (DAG 파이프라인)
- Stateless/Stateful 모델 스케줄링
- HTTP/REST, gRPC, C API 지원
- Kubernetes 스케일링, Prometheus 모니터링
사용 기업: 25,000+ (Microsoft, Samsung, Siemens, Snapchat 등)
최적 시나리오: NVIDIA 에코시스템 기반 엔터프라이즈 멀티 모델 서빙
GitHub: https://github.com/triton-inference-server/server
→ 상세: Triton Inference Server

HuggingFace TGI (Text Generation Inference)

개발: Hugging Face
핵심 기술: Flash Attention, Paged Attention, KV-caching
특징:
- 대부분의 오픈소스 LLM 출시 당일 지원
- Zero-config 모드 (v3): 하드웨어 자동 최적화
- OpenAI 호환 API, Prometheus, OpenTelemetry
- bitsandbytes, GPTQ 양자화
현재 상태: 2025년 12월부터 유지보수 모드 (신규 기능 개발 중단)
GitHub: https://github.com/huggingface/text-generation-inference

클라우드 추론 API 플랫폼

셀프호스팅 없이 API 호출만으로 오픈소스 LLM을 사용할 수 있는 서비스들. 자체 하드웨어로 최적화된 추론을 제공하며, OpenAI 호환 API가 표준.

Groq

항목	내용
하드웨어	LPU (Language Processing Unit) — 자체 ASIC
핵심 강점	최저 지연 시간 (TTFT 0.1~0.2초), 결정론적 실행
속도	Llama 3 70B: ~300 tok/s (GPU 대비 10배+)
지원 모델	Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral, Qwen, DeepSeek 등
가격	Llama 4 Scout $0.11/$ 0.34, Llama 3.3 70B $0.59/$ 0.79 ($/M tok)
현황	190만+ 개발자, 2025.12 NVIDIA $200억 인수
API	https://console.groq.com

→ 상세: AI Inference Accelerator

Cerebras

항목	내용
하드웨어	WSE-3 (Wafer Scale Engine) — 세계 최대 AI 칩
핵심 강점	최고 처리량 (Llama 70B: 2,314 tok/s)
속도	Llama 4 Maverick 400B: 2,500 tok/s
지원 모델	Llama 4, Llama 3, Qwen, DeepSeek R1 등
가격	Llama 3.1 70B $0.60/M tok
현황	OpenAI $100억 투자, 2026 Q2 IPO 예정
API	https://cloud.cerebras.ai

→ 상세: AI Inference Accelerator

Together AI

항목	내용
하드웨어	NVIDIA GPU 클러스터
핵심 강점	오픈소스 모델 최다 지원, 파인튜닝 API 제공
지원 모델	200+ 모델 (Llama, Mixtral, Qwen, DBRX, Yi 등)
가격	Llama 3.1 70B $0.88/$ 0.88, 8B $0.18/$ 0.18
특징	서버리스/전용 배포, 커스텀 모델 호스팅, Mixture of Agents
API	https://api.together.xyz

Fireworks AI

항목	내용
하드웨어	NVIDIA GPU + 자체 최적화 엔진 (FireAttention)
핵심 강점	속도 + 가격 균형, 함수 호출 최적화
지원 모델	Llama, Mixtral, Qwen, Gemma, FireFunction (자체 모델)
가격	Llama 3.1 70B $0.90/$ 0.90
특징	On-demand/Serverless/Dedicated, 모델 파인튜닝, JSON 모드
API	https://fireworks.ai

SambaNova Cloud

항목	내용
하드웨어	RDU (Reconfigurable Dataflow Unit) — 자체 칩
핵심 강점	학습+추론 모두 가능한 자체 칩
지원 모델	Llama 4, Llama 3, QwQ, DeepSeek 등
가격	무료 티어 제공, 유료 플랜 별도
API	https://cloud.sambanova.ai

→ 상세: AI Inference Accelerator

기타 추론 API

플랫폼	특징
Lepton AI	서버리스 AI 추론, 빠른 배포
Replicate	오픈소스 모델 원클릭 배포, GPU 자동 스케일링
Modal	Python 함수→클라우드 GPU 실행, 개발자 경험 우수
Baseten	모델 패키징(Truss) + 서빙, Mistral 공식 파트너
Deepinfra	저가 추론 API, 다양한 오픈소스 모델
Perplexity API	Sonar 모델 (웹 검색 통합 추론)
Anyscale (Endpoints)	Ray 기반, 분산 추론

클라우드 추론 API 비교

플랫폼	속도	가격	모델 수	파인튜닝	자체 칩	최적 용도
Groq	최고	저가	중간	X	LPU	실시간 챗봇, 저지연
Cerebras	최고	중간	중간	X	WSE	대량 처리, 배치
Together AI	높음	중간	최다	O	X	범용, 파인튜닝
Fireworks AI	높음	중간	많음	O	X	함수 호출, 에이전트
SambaNova	높음	무료 티어	중간	X	RDU	체험, 프로토타입
Replicate	중간	종량제	많음	X	X	빠른 프로토타입
Deepinfra	중간	최저	많음	X	X	비용 절감

로컬 추론 도구

Ollama

대상: 개발자, 애플리케이션 통합
특징:
- ollama run llama3 한 줄로 모델 실행
- 백그라운드 서버 + REST API
- LM Studio 대비 10~20% 빠른 추론
- NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) 지원
- MCP 프로토콜 지원
최적 시나리오: 로컬 개발, API 통합
공식 사이트: https://ollama.com

llama.cpp

개발: Georgi Gerganov
특징:
- C/C++ 구현, 모든 서빙 도구의 기반 엔진
- CPU 전용 실행 가능 (Vulkan, Metal, CUDA 지원)
- 직접 양자화 (GGUF 포맷)
- Ollama, LM Studio의 백엔드
- 라즈베리파이에서도 실행 가능
최적 시나리오: 최대 제어, 엣지 디바이스, 임베디드
GitHub: https://github.com/ggerganov/llama.cpp

LM Studio

대상: 비개발자, 초보자, 빠른 프로토타이핑
특징:
- GUI 기반 데스크톱 앱
- Hugging Face 모델 원클릭 다운로드
- GGUF 포맷 지원
- OpenAI 호환 로컬 API 서버
- Vulkan 지원
최적 시나리오: 모델 테스트, 프롬프트 엔지니어링
공식 사이트: https://lmstudio.ai

Jan

특징: 오픈소스 데스크톱 AI 앱, 로컬/원격 모델 통합 관리
GitHub: https://github.com/janhq/jan

프로덕션 엔진 비교

특성	vLLM	SGLang	TensorRT-LLM	Triton	TGI
핵심 기술	PagedAttention	RadixAttention	CUDA 최적화	오케스트레이터	Flash/Paged Attention
처리량	높음	최고	높음 (저동시성)	-	높음
설정 난이도	낮음	낮음	높음	중간	낮음
모델 지원	218+	다수	NVIDIA 최적화	멀티 프레임워크	HF 모델
GPU 활용률	좋음	95~98%	최고	-	좋음
현재 상태	활발	활발	활발	활발	유지보수 모드

로컬 도구 비교

특성	Ollama	llama.cpp	LM Studio	Jan
인터페이스	CLI + API	CLI + 웹UI	GUI	GUI
난이도	쉬움	어려움	매우 쉬움	쉬움
성능	우수	최고	좋음	좋음
양자화	자동	직접 제어	사전 양자화만	자동
최적 용도	개발/프로덕션	최대 제어/엣지	테스트/입문	데스크톱 AI
오픈소스	O	O	X	O

용도별 추천

용도	추천
범용 프로덕션 서빙	vLLM
에이전트/RAG (프리픽스 재사용)	SGLang
NVIDIA GPU 최대 효율	TensorRT-LLM + Triton
엔터프라이즈 멀티 모델	Triton Inference Server
로컬 개발 + API	Ollama
로컬 테스트/입문	LM Studio
엣지/임베디드	llama.cpp

2025~2026 트렌드

torch.compile 통합: vLLM V1 기본 활성화, SGLang도 적용 중
Prefill/Decode 분리: 단계별로 다른 하드웨어 사용 (SGLang, vLLM 구현)
OpenAI API 호환 표준화: 모든 주요 도구가 호환 API 제공
MCP 프로토콜: 도구 호출 표준화 확산
NPU 가속: 전용 AI 칩 지원 확대
프로덕션 양분: SGLang vs vLLM이 사실상 양강 구도

Bigstones

Explorer

LLM Serving Platform

개요

프로덕션 서빙 엔진

vLLM

SGLang

TensorRT-LLM

Triton Inference Server (NVIDIA Dynamo-Triton)

HuggingFace TGI (Text Generation Inference)

클라우드 추론 API 플랫폼

Groq

Cerebras

Together AI

Fireworks AI

SambaNova Cloud

기타 추론 API

클라우드 추론 API 비교

로컬 추론 도구

Ollama

llama.cpp

LM Studio

Jan

프로덕션 엔진 비교

로컬 도구 비교

용도별 추천

2025~2026 트렌드

관련 항목

Graph View

Table of Contents

Backlinks