개요

LLM Serving Platform은 Large Language Models (LLMs)를 프로덕션 환경에서 효율적으로 배포하고 서빙하기 위한 프레임워크 및 도구입니다. 높은 처리량, 낮은 지연 시간, 효율적인 메모리 관리가 핵심 과제입니다.

프로덕션 서빙 엔진

vLLM

  • 개발: UC Berkeley → PyTorch Foundation
  • 핵심 기술: PagedAttention, Continuous Batching
  • 특징: 218+ 모델 지원 (최다), 동시성 스케일링 우수, 설정 간편
  • 최적 시나리오: 범용 프로덕션 서빙
  • 하드웨어: NVIDIA, AMD, TPU, AWS Neuron, CPU
  • GitHub: https://github.com/vllm-project/vllm

SGLang

  • 개발: LMSYS (vLLM과 동일 연구 그룹)
  • 핵심 기술: RadixAttention (KV 캐시 Radix Tree 관리)
  • 특징:
    • KV 캐시 재사용률: 8595% (vLLM PagedAttention: 1525%)
    • vLLM 대비 최대 3.1x 처리량 (Llama-70B)
    • Compressed FSM으로 JSON 디코딩 3x 가속
    • Zero-overhead 스케줄러: 95~98% GPU 활용률
  • 최적 시나리오: 에이전트, RAG, 반복 프롬프트가 많은 워크로드
  • 배포 규모: 전 세계 400,000+ GPU, 일일 수조 토큰 생성
  • 사용 기업: xAI, AMD, NVIDIA, LinkedIn, Cursor, Oracle, Google, Azure, AWS
  • GitHub: https://github.com/sgl-project/sglang

TensorRT-LLM

  • 개발: NVIDIA
  • 핵심 기술: CUDA Graph 최적화, Fused Kernel, Tensor Core 가속
  • 특징:
    • 저동시성에서 TTFT 최우수 (35~50ms)
    • B200 GPU에서 SGLang/vLLM 대비 전 지표 우위
    • FP4/FP8/INT4/INT8 양자화, Speculative Decoding (EAGLE-3)
    • AutoDeploy: PyTorch 모델 자동 최적화 컴파일 (베타)
    • Docker 기반 배포, 설정 복잡
  • 최적 시나리오: NVIDIA GPU 최대 효율, 대규모 프로덕션
  • 연동: Triton Inference Server, NeMo, NIM
  • GitHub: https://github.com/NVIDIA/TensorRT-LLM
  • → 상세: TensorRT-LLM

Triton Inference Server (NVIDIA Dynamo-Triton)

  • 개발: NVIDIA
  • 역할: 모델 서빙 레이어 및 오케스트레이터 (추론 엔진 자체가 아님)
  • 특징:
    • 멀티 프레임워크: TensorRT, PyTorch, ONNX, OpenVINO, Python, RAPIDS
    • 크로스 플랫폼: NVIDIA GPU, 비NVIDIA 가속기, x86/ARM CPU
    • Dynamic Batching, 모델 앙상블 (DAG 파이프라인)
    • Stateless/Stateful 모델 스케줄링
    • HTTP/REST, gRPC, C API 지원
    • Kubernetes 스케일링, Prometheus 모니터링
  • 사용 기업: 25,000+ (Microsoft, Samsung, Siemens, Snapchat 등)
  • 최적 시나리오: NVIDIA 에코시스템 기반 엔터프라이즈 멀티 모델 서빙
  • GitHub: https://github.com/triton-inference-server/server
  • → 상세: Triton Inference Server

HuggingFace TGI (Text Generation Inference)

  • 개발: Hugging Face
  • 핵심 기술: Flash Attention, Paged Attention, KV-caching
  • 특징:
    • 대부분의 오픈소스 LLM 출시 당일 지원
    • Zero-config 모드 (v3): 하드웨어 자동 최적화
    • OpenAI 호환 API, Prometheus, OpenTelemetry
    • bitsandbytes, GPTQ 양자화
  • 현재 상태: 2025년 12월부터 유지보수 모드 (신규 기능 개발 중단)
  • GitHub: https://github.com/huggingface/text-generation-inference

클라우드 추론 API 플랫폼

셀프호스팅 없이 API 호출만으로 오픈소스 LLM을 사용할 수 있는 서비스들. 자체 하드웨어로 최적화된 추론을 제공하며, OpenAI 호환 API가 표준.

Groq

항목내용
하드웨어LPU (Language Processing Unit) — 자체 ASIC
핵심 강점최저 지연 시간 (TTFT 0.1~0.2초), 결정론적 실행
속도Llama 3 70B: ~300 tok/s (GPU 대비 10배+)
지원 모델Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral, Qwen, DeepSeek 등
가격Llama 4 Scout 0.34, Llama 3.3 70B 0.79 ($/M tok)
현황190만+ 개발자, 2025.12 NVIDIA $200억 인수
APIhttps://console.groq.com

→ 상세: AI Inference Accelerator

Cerebras

항목내용
하드웨어WSE-3 (Wafer Scale Engine) — 세계 최대 AI 칩
핵심 강점최고 처리량 (Llama 70B: 2,314 tok/s)
속도Llama 4 Maverick 400B: 2,500 tok/s
지원 모델Llama 4, Llama 3, Qwen, DeepSeek R1 등
가격Llama 3.1 70B $0.60/M tok
현황OpenAI $100억 투자, 2026 Q2 IPO 예정
APIhttps://cloud.cerebras.ai

→ 상세: AI Inference Accelerator

Together AI

항목내용
하드웨어NVIDIA GPU 클러스터
핵심 강점오픈소스 모델 최다 지원, 파인튜닝 API 제공
지원 모델200+ 모델 (Llama, Mixtral, Qwen, DBRX, Yi 등)
가격Llama 3.1 70B 0.88, 8B 0.18
특징서버리스/전용 배포, 커스텀 모델 호스팅, Mixture of Agents
APIhttps://api.together.xyz

Fireworks AI

항목내용
하드웨어NVIDIA GPU + 자체 최적화 엔진 (FireAttention)
핵심 강점속도 + 가격 균형, 함수 호출 최적화
지원 모델Llama, Mixtral, Qwen, Gemma, FireFunction (자체 모델)
가격Llama 3.1 70B 0.90
특징On-demand/Serverless/Dedicated, 모델 파인튜닝, JSON 모드
APIhttps://fireworks.ai

SambaNova Cloud

항목내용
하드웨어RDU (Reconfigurable Dataflow Unit) — 자체 칩
핵심 강점학습+추론 모두 가능한 자체 칩
지원 모델Llama 4, Llama 3, QwQ, DeepSeek 등
가격무료 티어 제공, 유료 플랜 별도
APIhttps://cloud.sambanova.ai

→ 상세: AI Inference Accelerator

기타 추론 API

플랫폼특징
Lepton AI서버리스 AI 추론, 빠른 배포
Replicate오픈소스 모델 원클릭 배포, GPU 자동 스케일링
ModalPython 함수→클라우드 GPU 실행, 개발자 경험 우수
Baseten모델 패키징(Truss) + 서빙, Mistral 공식 파트너
Deepinfra저가 추론 API, 다양한 오픈소스 모델
Perplexity APISonar 모델 (웹 검색 통합 추론)
Anyscale (Endpoints)Ray 기반, 분산 추론

클라우드 추론 API 비교

플랫폼속도가격모델 수파인튜닝자체 칩최적 용도
Groq최고저가중간XLPU실시간 챗봇, 저지연
Cerebras최고중간중간XWSE대량 처리, 배치
Together AI높음중간최다OX범용, 파인튜닝
Fireworks AI높음중간많음OX함수 호출, 에이전트
SambaNova높음무료 티어중간XRDU체험, 프로토타입
Replicate중간종량제많음XX빠른 프로토타입
Deepinfra중간최저많음XX비용 절감

로컬 추론 도구

Ollama

  • 대상: 개발자, 애플리케이션 통합
  • 특징:
    • ollama run llama3 한 줄로 모델 실행
    • 백그라운드 서버 + REST API
    • LM Studio 대비 10~20% 빠른 추론
    • NVIDIA (CUDA), Apple Silicon (Metal), AMD (ROCm) 지원
    • MCP 프로토콜 지원
  • 최적 시나리오: 로컬 개발, API 통합
  • 공식 사이트: https://ollama.com

llama.cpp

  • 개발: Georgi Gerganov
  • 특징:
    • C/C++ 구현, 모든 서빙 도구의 기반 엔진
    • CPU 전용 실행 가능 (Vulkan, Metal, CUDA 지원)
    • 직접 양자화 (GGUF 포맷)
    • Ollama, LM Studio의 백엔드
    • 라즈베리파이에서도 실행 가능
  • 최적 시나리오: 최대 제어, 엣지 디바이스, 임베디드
  • GitHub: https://github.com/ggerganov/llama.cpp

LM Studio

  • 대상: 비개발자, 초보자, 빠른 프로토타이핑
  • 특징:
    • GUI 기반 데스크톱 앱
    • Hugging Face 모델 원클릭 다운로드
    • GGUF 포맷 지원
    • OpenAI 호환 로컬 API 서버
    • Vulkan 지원
  • 최적 시나리오: 모델 테스트, 프롬프트 엔지니어링
  • 공식 사이트: https://lmstudio.ai

Jan

프로덕션 엔진 비교

특성vLLMSGLangTensorRT-LLMTritonTGI
핵심 기술PagedAttentionRadixAttentionCUDA 최적화오케스트레이터Flash/Paged Attention
처리량높음최고높음 (저동시성)-높음
설정 난이도낮음낮음높음중간낮음
모델 지원218+다수NVIDIA 최적화멀티 프레임워크HF 모델
GPU 활용률좋음95~98%최고-좋음
현재 상태활발활발활발활발유지보수 모드

로컬 도구 비교

특성Ollamallama.cppLM StudioJan
인터페이스CLI + APICLI + 웹UIGUIGUI
난이도쉬움어려움매우 쉬움쉬움
성능우수최고좋음좋음
양자화자동직접 제어사전 양자화만자동
최적 용도개발/프로덕션최대 제어/엣지테스트/입문데스크톱 AI
오픈소스OOXO

용도별 추천

용도추천
범용 프로덕션 서빙vLLM
에이전트/RAG (프리픽스 재사용)SGLang
NVIDIA GPU 최대 효율TensorRT-LLM + Triton
엔터프라이즈 멀티 모델Triton Inference Server
로컬 개발 + APIOllama
로컬 테스트/입문LM Studio
엣지/임베디드llama.cpp

2025~2026 트렌드

  • torch.compile 통합: vLLM V1 기본 활성화, SGLang도 적용 중
  • Prefill/Decode 분리: 단계별로 다른 하드웨어 사용 (SGLang, vLLM 구현)
  • OpenAI API 호환 표준화: 모든 주요 도구가 호환 API 제공
  • MCP 프로토콜: 도구 호출 표준화 확산
  • NPU 가속: 전용 AI 칩 지원 확대
  • 프로덕션 양분: SGLang vs vLLM이 사실상 양강 구도

관련 항목