AI Inference Accelerator

개요

AI Inference Accelerator는 Large Language Models (LLMs) 추론에 특화된 하드웨어입니다. NVIDIA GPU의 범용 아키텍처와 달리, ASIC/커스텀 칩으로 추론 지연 시간과 비용을 극적으로 줄이는 것이 목표입니다. 2025년을 기점으로 AI 컴퓨팅의 중심이 학습(Training)에서 **추론(Inference)**으로 전환되고 있습니다.

주요 추론 특화 칩

NVIDIA — Grok3 LPU (Language Processing Unit)

항목	사양
아키텍처	Grok3 LPU (Groq 기술 접목 추정)
공정	Samsung Foundry (선단 공정)
발표	2026.03 (GTC 2026)
용도	LLM/VLM 실시간 추론 및 운영 비용 절감

핵심 설계 및 특징:

추론 최적화: NVIDIA의 범용 GPU와 달리, LLM 추론의 지연 시간(Latency)과 처리량(Throughput) 극대화에 초점.
삼성 파운드리 협력: 젠슨 황 CEO가 공식 감사 인사를 전하며 삼성과의 파운드리 파트너십 강조.
비용 효율성: 전력 효율을 개선하여 데이터센터의 AI 서비스 운영 비용을 획기적으로 낮춤.

Groq — LPU (Language Processing Unit)

항목	사양
아키텍처	LPU (Tensor Streaming Processor 기반)
공정	Gen1: 14nm / Gen2 (LPU v2): Samsung 4nm
메모리	온칩 SRAM (HBM 미사용)
특징	결정론적(Deterministic) 실행, 정적 스케줄링

핵심 설계:

SRAM 기반: 수백 MB 온칩 SRAM을 주 메모리로 사용 → HBM 병목 제거
결정론적 실행: 컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
TruePoint Numerics: 100비트 중간 누적으로 정밀도 손실 없는 양자화
Tensor Parallelism: 하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속

벤치마크:

Llama 2 70B: 300 토큰/초 (NVIDIA H100 대비 10배)
TTFT(첫 토큰): 0.22초, 가장 낮은 지연 시간 편차
ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 성능

GroqCloud API 가격 (2025.12):

모델	입력 ($/M 토큰)	출력 ($/M 토큰)
Llama 4 Scout	$0.11	$0.34
Llama 3.3 70B	$0.59	$0.79

지원 모델: Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral 8x7B, Qwen, DeepSeek 등

현황:

190만+ 개발자, Dropbox/Volkswagen/Riot Games 등 엔터프라이즈 고객
12개 데이터센터 (미국, 캐나다, 중동, 유럽)
2025.12: NVIDIA가 $200억에 인수 (비독점 라이선스 계약)
Meta 파트너십: 공식 Llama API 추론 제공

트레이드오프:

SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요
추론 전용 (학습/파인튜닝 불가)

Cerebras — WSE (Wafer Scale Engine)

항목	사양
칩	WSE-3 (세계 최대 AI 칩)
크기	46,255 mm² (웨이퍼 전체)
트랜지스터	4조 개 (NVIDIA B200의 19배)
AI 코어	900,000개
온칩 SRAM	44GB (H100의 ~1,000배)
메모리 대역폭	21 PB/s (H100의 7,000배)
컴퓨팅	125 PFLOPS (B200의 28배)

핵심 설계:

웨이퍼 스케일: 칩을 자르지 않고 웨이퍼 전체를 하나의 프로세서로 사용
Weight Streaming: 클러스터 전체를 단일 논리 프로세서로 취급
온칩 SRAM: 외부 메모리 접근 없이 파라미터 직접 로드 → 극한 속도

벤치마크:

Llama 3.3 70B: 2,314 토큰/초 (Amazon Bedrock 대비 70배)
Llama 4 Maverick (400B): 2,500 토큰/초 (NVIDIA DGX B200 대비 2배+)
Llama 4 Scout: 2,000+ 토큰/초 (ChatGPT/Claude 대비 30배+)
WaferLLM (WSE-2): SGLang (A100) 대비 30~40배

가격: Llama 3.1 70B 추론 $0.60/M 토큰

현황:

고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소
6개 추론 전용 데이터센터, 총 4,000만 토큰/초 (Llama 70B)
MemoryX: 24TB ~ 1,200TB 구성 (24조 파라미터 모델 저장 가능)
2026 Q2 IPO 예정 (예상 기업가치 $150억+)

Etched — Sohu

항목	사양
아키텍처	Transformer 전용 ASIC
공정	TSMC 4nm
설립	2022년 (Harvard 중퇴 3인)

핵심 설계:

Transformer 아키텍처를 실리콘에 직접 소각 (hardcoded)
CNN, RNN, LSTM 등 다른 아키텍처는 실행 불가
극도의 특화로 최대 효율 달성

벤치마크:

8-chip Sohu 서버: Llama 70B에서 500,000 토큰/초 (8xH100: 23,000 토큰/초 대비 ~22배)
H100 대비 10~20배 성능/와트

현황:

$5억+ 투자 (Peter Thiel, Ribbit Capital 등)
TSMC 4nm 팹 용량 확보

리스크: Transformer가 아닌 새 아키텍처가 등장하면 칩 자체가 무용지물

SambaNova — RDU (Reconfigurable Dataflow Unit)

항목	사양
최신 칩	SN50
아키텍처	RDU (재구성 가능 데이터플로우)
지원	학습 + 추론 모두 가능

핵심 설계:

Google TPU, AWS Trainium과 유사한 데이터플로우 아키텍처
SN50: 이전 세대(SN40) 대비 5배 컴퓨팅, 4배 네트워크 대역폭
256 가속기 멀티 테라비트 인터커넥트 연결
10조 파라미터, 1,000만 컨텍스트 길이 지원

현황:

2026.02: $3.5억 투자 + Intel 파트너십 (공동 개발)
Intel 인수 루머 ($16억 추정)
고객: Los Alamos 국립연구소, SoftBank, Accenture

Google TPU — Trillium / Ironwood

세대	이름	특징
v6e	Trillium	v5e 대비 4.7배 컴퓨팅, 2배 HBM/ICI, 67% 에너지 효율
v7	Ironwood	추론 전용 설계, 4,614 TFLOPS, 192GB HBM, 7.2TB/s 대역폭

Trillium: Gemini 2.0 학습에 사용, v5e 대비 달러당 2.1배 성능
Ironwood: 9,216칩 팟에서 42.5 EXAFLOPS, 이전 세대 대비 10배 성능
TPU v6e: $0.39$ 1.375/칩·시간 (H100: $3+/시간)

AWS Trainium

세대	특징
Trainium2	83.2 PFLOPS 울트라 서버, Anthropic용 50만 칩 배포
Trainium3 (2025.12)	3nm 공정, 2.52 PFLOPS FP8, 144GB HBM3e

Trainium2: H100 대비 ~25% 비용으로 동등 성능
Trainium3: Trainium2 대비 2배 성능, 40% 에너지 효율 향상
소프트웨어: AWS Neuron SDK

종합 비교

칩	개발사	아키텍처	추론 속도 (Llama 70B)	학습	유연성	가격 경쟁력
LPU	Groq	SRAM ASIC	300 tok/s	X	낮음	높음
WSE-3	Cerebras	웨이퍼 스케일	2,314 tok/s	O	중간	높음
Sohu	Etched	Transformer ASIC	500K tok/s (8칩)	X	최저	미검증
SN50	SambaNova	RDU	-	O	높음	중간
Ironwood	Google	TPU	-	O	높음	높음
Trainium3	AWS	커스텀	-	O	높음	높음
H100/B200	NVIDIA	GPU (범용)	기준선	O	최고	기준선
REBEL-2	Rebellions (리벨리온)	NPU	-	X	중간	중간
RNGD	FuriosaAI (퓨리오사)	NPU	-	X	중간	중간
Hailo-8	Hailo	NPU (엣지)	-	X	낮음	높음

아키텍처별 트레이드오프

유연성 높음 ←──────────────────────────→ 추론 속도 높음

GPU(NVIDIA)  TPU/Trainium  SambaNova  Cerebras  Groq  Etched
  범용        학습+추론     학습+추론    추론 특화  추론 전용  Transformer 전용

2025~2026 트렌드

추론 시대: AI 컴퓨팅의 무게중심이 학습→추론으로 전환
NVIDIA 독점 약화: 하이퍼스케일러 커스텀 칩이 15~25% 시장 점유 예상
ASIC 경쟁 격화: Groq/Cerebras/Etched가 추론 특화 시장 개척
NVIDIA 대응: Groq $200억 인수, Blackwell B200의 FP4 추론 최적화
추론 칩 시장: 2027년까지 $250억+ 전망 (CAGR 30%+)

Bigstones

Explorer

AI Inference Accelerator

개요

주요 추론 특화 칩

NVIDIA — Grok3 LPU (Language Processing Unit)

Groq — LPU (Language Processing Unit)

Cerebras — WSE (Wafer Scale Engine)

Etched — Sohu

SambaNova — RDU (Reconfigurable Dataflow Unit)

Google TPU — Trillium / Ironwood

AWS Trainium

종합 비교

아키텍처별 트레이드오프

2025~2026 트렌드

관련 항목

Graph View

Table of Contents

Backlinks