개요
TensorRT-LLM 은 NVIDIA가 개발한 오픈소스 LLM 추론 최적화 라이브러리입니다. CUDA Graph 최적화, Fused Kernel, Tensor Core 가속 등 NVIDIA GPU 하드웨어에 특화된 최적화를 통해 최고 수준의 추론 성능을 제공합니다. PyTorch 기반으로 설계되었습니다.
핵심 최적화 기술
양자화 (Quantization)
포맷 지원 GPU 특징 FP8 Hopper (H100), Ada (L40S), SM120 프로덕션 표준 FP4 (NVFP4) Blackwell (B200) 최신, 최저 정밀도 INT4 AWQ 범용 가중치 4bit 양자화 INT8 SmoothQuant 범용 활성화+가중치 양자화 W4A8 Ada (SM89) BF16 모델용
Speculative Decoding
여러 토큰을 한 번에 예측하여 추론 속도 가속.
방식 특징 EAGLE / EAGLE-3 Draft 모델 기반 추측 디코딩 MTP (Multi-Token Prediction) 추가 예측 헤드로 다중 토큰 예측 N-gram 프롬프트 패턴 기반 통계적 추측 Medusa 다중 헤드 병렬 예측 Lookahead Jacobi 디코딩 기반
Llama 3.3 70B에서 Speculative Decoding으로 3배 처리량 향상 달성
In-Flight Batching
요청을 동적으로 배치에 추가/제거
컨텍스트 처리(prefill)와 생성(decode)을 동시 실행
GPU 유휴 시간 최소화
Paged KV Caching
KV 캐시를 페이지 단위로 관리
메모리 단편화 방지
분산 추론
병렬화 방식 설명 Tensor Parallelism 모델 레이어를 GPU 간 분할 Pipeline Parallelism 모델 레이어를 순차적으로 GPU에 배치 Expert Parallelism MoE 모델의 전문가를 GPU에 분산 Context Parallelism 긴 컨텍스트를 GPU 간 분할 처리
Prefill/Decode 분리 (Disaggregated Serving)
Prefill(프롬프트 처리)과 Decode(토큰 생성)를 다른 하드웨어에서 실행
각 단계에 최적화된 리소스 할당
AutoDeploy
PyTorch 모델을 자동으로 추론 최적화 그래프로 컴파일하는 기능 (베타).
수동 엔진 빌드 없이 100+ 텍스트 모델 지원
캐싱, 샤딩, 커널 선택, 런타임 통합을 컴파일러가 자동 처리
VLM, SSM 초기 지원
지원 모델
언어 모델
Llama 3/4, Qwen 2/3, DeepSeek-R1/V3, Gemma 3
Mistral/Mixtral, Phi-4, GPT-J, Nemotron, GPT-OSS
멀티모달 모델
LLaVA-NeXT, Qwen2-VL, VILA, Llama 3.2 Vision
사전 양자화 모델 (HuggingFace)
DeepSeek-R1-FP4
Llama-3.3-70B-Instruct-FP4
Llama-3.1-405B-Instruct-FP4
Llama-3.1 Instruct FP8 (8B/70B/405B)
지원 하드웨어
세대 GPU 주요 기능 Blackwell B200, B300, GB200 FP4, 최신 최적화 Hopper H100, H200 FP8, 프로덕션 표준 Ada L40S, RTX 6000 Ada FP8, W4A8 Ampere A100 INT8, INT4
성능 벤치마크
vs llama.cpp (RTX 4090)
TensorRT-LLM이 약 70% 빠름
Ada 아키텍처 전용 최적화, 512 Tensor Core 완전 활용
H100 FP8 성능
64 동시 요청 시 10,000+ 출력 토큰/초
TTFT(첫 토큰) ~100ms
A100 대비 최대 4.6배 처리량 , 4.4배 빠른 TTFT
vs vLLM / SGLang
저동시성에서 TTFT 최우수 (35~50ms)
B200에서 전 지표 우위
고동시성에서는 vLLM/SGLang이 더 안정적
설치 및 사용법
# Docker (권장)
docker pull nvcr.io/nvidia/tensorrt-llm:latest
# pip 설치
pip install tensorrt-llm
# 벤치마크 실행
trtllm-bench --model meta-llama/Llama-3.3-70B-Instruct
# 서빙
trtllm-serve meta-llama/Llama-3.3-70B-Instruct
v0.19부터 PyTorch 백엔드 사용 시 엔진 빌드 없이 바로 실행 가능.
NVIDIA 에코시스템 연동
Model Optimizer (양자화/프루닝/증류)
↓
TensorRT-LLM (추론 엔진)
↓
Triton Inference Server (서빙 오케스트레이터)
↓
NeMo / NIM (엔터프라이즈 배포)
Triton Inference Server : HTTP/gRPC 서빙 레이어
Model Optimizer : 양자화, 프루닝, 증류, Speculative Decoding 통합 라이브러리
TensorRT Cloud : 최적 엔진 설정 자동 탐색 서비스
NIM (NVIDIA Inference Microservices) : 컨테이너화된 배포
비교
특성 TensorRT-LLM vLLM SGLang 개발 NVIDIA UC Berkeley LMSYS 최적화 수준 최고 (HW 특화) 높음 높음 설정 난이도 높음 (Docker 필수) 낮음 낮음 GPU 지원 NVIDIA 전용 멀티 벤더 멀티 벤더 양자화 FP4/FP8/INT4/INT8 FP8/INT4/AWQ/GPTQ FP4/FP8/INT4/AWQ/GPTQ 최적 시나리오 대규모 프로덕션, 비용 최적화 범용 에이전트/RAG 학습 곡선 가파름 완만 완만
관련 항목