TensorRT-LLM

개요

TensorRT-LLM은 NVIDIA가 개발한 오픈소스 LLM 추론 최적화 라이브러리입니다. CUDA Graph 최적화, Fused Kernel, Tensor Core 가속 등 NVIDIA GPU 하드웨어에 특화된 최적화를 통해 최고 수준의 추론 성능을 제공합니다. PyTorch 기반으로 설계되었습니다.

GitHub: https://github.com/NVIDIA/TensorRT-LLM
공식 문서: https://nvidia.github.io/TensorRT-LLM/
라이선스: Apache 2.0

핵심 최적화 기술

양자화 (Quantization)

포맷	지원 GPU	특징
FP8	Hopper (H100), Ada (L40S), SM120	프로덕션 표준
FP4 (NVFP4)	Blackwell (B200)	최신, 최저 정밀도
INT4 AWQ	범용	가중치 4bit 양자화
INT8 SmoothQuant	범용	활성화+가중치 양자화
W4A8	Ada (SM89)	BF16 모델용

Speculative Decoding

여러 토큰을 한 번에 예측하여 추론 속도 가속.

방식	특징
EAGLE / EAGLE-3	Draft 모델 기반 추측 디코딩
MTP (Multi-Token Prediction)	추가 예측 헤드로 다중 토큰 예측
N-gram	프롬프트 패턴 기반 통계적 추측
Medusa	다중 헤드 병렬 예측
Lookahead	Jacobi 디코딩 기반

Llama 3.3 70B에서 Speculative Decoding으로 3배 처리량 향상 달성

In-Flight Batching

요청을 동적으로 배치에 추가/제거
컨텍스트 처리(prefill)와 생성(decode)을 동시 실행
GPU 유휴 시간 최소화

Paged KV Caching

KV 캐시를 페이지 단위로 관리
메모리 단편화 방지

분산 추론

병렬화 방식	설명
Tensor Parallelism	모델 레이어를 GPU 간 분할
Pipeline Parallelism	모델 레이어를 순차적으로 GPU에 배치
Expert Parallelism	MoE 모델의 전문가를 GPU에 분산
Context Parallelism	긴 컨텍스트를 GPU 간 분할 처리

Prefill/Decode 분리 (Disaggregated Serving)

Prefill(프롬프트 처리)과 Decode(토큰 생성)를 다른 하드웨어에서 실행
각 단계에 최적화된 리소스 할당

AutoDeploy

PyTorch 모델을 자동으로 추론 최적화 그래프로 컴파일하는 기능 (베타).

수동 엔진 빌드 없이 100+ 텍스트 모델 지원
캐싱, 샤딩, 커널 선택, 런타임 통합을 컴파일러가 자동 처리
VLM, SSM 초기 지원

지원 모델

언어 모델

Llama 3/4, Qwen 2/3, DeepSeek-R1/V3, Gemma 3
Mistral/Mixtral, Phi-4, GPT-J, Nemotron, GPT-OSS

멀티모달 모델

LLaVA-NeXT, Qwen2-VL, VILA, Llama 3.2 Vision

사전 양자화 모델 (HuggingFace)

DeepSeek-R1-FP4
Llama-3.3-70B-Instruct-FP4
Llama-3.1-405B-Instruct-FP4
Llama-3.1 Instruct FP8 (8B/70B/405B)

지원 하드웨어

세대	GPU	주요 기능
Blackwell	B200, B300, GB200	FP4, 최신 최적화
Hopper	H100, H200	FP8, 프로덕션 표준
Ada	L40S, RTX 6000 Ada	FP8, W4A8
Ampere	A100	INT8, INT4

성능 벤치마크

vs llama.cpp (RTX 4090)

TensorRT-LLM이 약 70% 빠름
Ada 아키텍처 전용 최적화, 512 Tensor Core 완전 활용

H100 FP8 성능

64 동시 요청 시 10,000+ 출력 토큰/초
TTFT(첫 토큰) ~100ms
A100 대비 최대 4.6배 처리량, 4.4배 빠른 TTFT

vs vLLM / SGLang

저동시성에서 TTFT 최우수 (35~50ms)
B200에서 전 지표 우위
고동시성에서는 vLLM/SGLang이 더 안정적

설치 및 사용법

# Docker (권장)
docker pull nvcr.io/nvidia/tensorrt-llm:latest
 
# pip 설치
pip install tensorrt-llm
 
# 벤치마크 실행
trtllm-bench --model meta-llama/Llama-3.3-70B-Instruct
 
# 서빙
trtllm-serve meta-llama/Llama-3.3-70B-Instruct

v0.19부터 PyTorch 백엔드 사용 시 엔진 빌드 없이 바로 실행 가능.

NVIDIA 에코시스템 연동

Model Optimizer (양자화/프루닝/증류)
        ↓
   TensorRT-LLM (추론 엔진)
        ↓
 Triton Inference Server (서빙 오케스트레이터)
        ↓
    NeMo / NIM (엔터프라이즈 배포)

Triton Inference Server: HTTP/gRPC 서빙 레이어
Model Optimizer: 양자화, 프루닝, 증류, Speculative Decoding 통합 라이브러리
TensorRT Cloud: 최적 엔진 설정 자동 탐색 서비스
NIM (NVIDIA Inference Microservices): 컨테이너화된 배포

비교

특성	TensorRT-LLM	vLLM	SGLang
개발	NVIDIA	UC Berkeley	LMSYS
최적화 수준	최고 (HW 특화)	높음	높음
설정 난이도	높음 (Docker 필수)	낮음	낮음
GPU 지원	NVIDIA 전용	멀티 벤더	멀티 벤더
양자화	FP4/FP8/INT4/INT8	FP8/INT4/AWQ/GPTQ	FP4/FP8/INT4/AWQ/GPTQ
최적 시나리오	대규모 프로덕션, 비용 최적화	범용	에이전트/RAG
학습 곡선	가파름	완만	완만

Bigstones

Explorer