개요

TensorRT-LLM은 NVIDIA가 개발한 오픈소스 LLM 추론 최적화 라이브러리입니다. CUDA Graph 최적화, Fused Kernel, Tensor Core 가속 등 NVIDIA GPU 하드웨어에 특화된 최적화를 통해 최고 수준의 추론 성능을 제공합니다. PyTorch 기반으로 설계되었습니다.

핵심 최적화 기술

양자화 (Quantization)

포맷지원 GPU특징
FP8Hopper (H100), Ada (L40S), SM120프로덕션 표준
FP4 (NVFP4)Blackwell (B200)최신, 최저 정밀도
INT4 AWQ범용가중치 4bit 양자화
INT8 SmoothQuant범용활성화+가중치 양자화
W4A8Ada (SM89)BF16 모델용

Speculative Decoding

여러 토큰을 한 번에 예측하여 추론 속도 가속.

방식특징
EAGLE / EAGLE-3Draft 모델 기반 추측 디코딩
MTP (Multi-Token Prediction)추가 예측 헤드로 다중 토큰 예측
N-gram프롬프트 패턴 기반 통계적 추측
Medusa다중 헤드 병렬 예측
LookaheadJacobi 디코딩 기반
  • Llama 3.3 70B에서 Speculative Decoding으로 3배 처리량 향상 달성

In-Flight Batching

  • 요청을 동적으로 배치에 추가/제거
  • 컨텍스트 처리(prefill)와 생성(decode)을 동시 실행
  • GPU 유휴 시간 최소화

Paged KV Caching

  • KV 캐시를 페이지 단위로 관리
  • 메모리 단편화 방지

분산 추론

병렬화 방식설명
Tensor Parallelism모델 레이어를 GPU 간 분할
Pipeline Parallelism모델 레이어를 순차적으로 GPU에 배치
Expert ParallelismMoE 모델의 전문가를 GPU에 분산
Context Parallelism긴 컨텍스트를 GPU 간 분할 처리

Prefill/Decode 분리 (Disaggregated Serving)

  • Prefill(프롬프트 처리)과 Decode(토큰 생성)를 다른 하드웨어에서 실행
  • 각 단계에 최적화된 리소스 할당

AutoDeploy

PyTorch 모델을 자동으로 추론 최적화 그래프로 컴파일하는 기능 (베타).

  • 수동 엔진 빌드 없이 100+ 텍스트 모델 지원
  • 캐싱, 샤딩, 커널 선택, 런타임 통합을 컴파일러가 자동 처리
  • VLM, SSM 초기 지원

지원 모델

언어 모델

  • Llama 3/4, Qwen 2/3, DeepSeek-R1/V3, Gemma 3
  • Mistral/Mixtral, Phi-4, GPT-J, Nemotron, GPT-OSS

멀티모달 모델

  • LLaVA-NeXT, Qwen2-VL, VILA, Llama 3.2 Vision

사전 양자화 모델 (HuggingFace)

  • DeepSeek-R1-FP4
  • Llama-3.3-70B-Instruct-FP4
  • Llama-3.1-405B-Instruct-FP4
  • Llama-3.1 Instruct FP8 (8B/70B/405B)

지원 하드웨어

세대GPU주요 기능
BlackwellB200, B300, GB200FP4, 최신 최적화
HopperH100, H200FP8, 프로덕션 표준
AdaL40S, RTX 6000 AdaFP8, W4A8
AmpereA100INT8, INT4

성능 벤치마크

vs llama.cpp (RTX 4090)

  • TensorRT-LLM이 약 70% 빠름
  • Ada 아키텍처 전용 최적화, 512 Tensor Core 완전 활용

H100 FP8 성능

  • 64 동시 요청 시 10,000+ 출력 토큰/초
  • TTFT(첫 토큰) ~100ms
  • A100 대비 최대 4.6배 처리량, 4.4배 빠른 TTFT

vs vLLM / SGLang

  • 저동시성에서 TTFT 최우수 (35~50ms)
  • B200에서 전 지표 우위
  • 고동시성에서는 vLLM/SGLang이 더 안정적

설치 및 사용법

# Docker (권장)
docker pull nvcr.io/nvidia/tensorrt-llm:latest
 
# pip 설치
pip install tensorrt-llm
 
# 벤치마크 실행
trtllm-bench --model meta-llama/Llama-3.3-70B-Instruct
 
# 서빙
trtllm-serve meta-llama/Llama-3.3-70B-Instruct

v0.19부터 PyTorch 백엔드 사용 시 엔진 빌드 없이 바로 실행 가능.

NVIDIA 에코시스템 연동

Model Optimizer (양자화/프루닝/증류)
        ↓
   TensorRT-LLM (추론 엔진)
        ↓
 Triton Inference Server (서빙 오케스트레이터)
        ↓
    NeMo / NIM (엔터프라이즈 배포)
  • Triton Inference Server: HTTP/gRPC 서빙 레이어
  • Model Optimizer: 양자화, 프루닝, 증류, Speculative Decoding 통합 라이브러리
  • TensorRT Cloud: 최적 엔진 설정 자동 탐색 서비스
  • NIM (NVIDIA Inference Microservices): 컨테이너화된 배포

비교

특성TensorRT-LLMvLLMSGLang
개발NVIDIAUC BerkeleyLMSYS
최적화 수준최고 (HW 특화)높음높음
설정 난이도높음 (Docker 필수)낮음낮음
GPU 지원NVIDIA 전용멀티 벤더멀티 벤더
양자화FP4/FP8/INT4/INT8FP8/INT4/AWQ/GPTQFP4/FP8/INT4/AWQ/GPTQ
최적 시나리오대규모 프로덕션, 비용 최적화범용에이전트/RAG
학습 곡선가파름완만완만

관련 항목