개요
AI Inference Accelerator는 Large Language Models (LLMs) 추론에 특화된 하드웨어입니다. NVIDIA GPU의 범용 아키텍처와 달리, ASIC/커스텀 칩으로 추론 지연 시간과 비용을 극적으로 줄이는 것이 목표입니다. 2025년을 기점으로 AI 컴퓨팅의 중심이 학습(Training)에서 **추론(Inference)**으로 전환되고 있습니다.
주요 추론 특화 칩
NVIDIA — Grok3 LPU (Language Processing Unit)
| 항목 | 사양 |
|---|---|
| 아키텍처 | Grok3 LPU (Groq 기술 접목 추정) |
| 공정 | Samsung Foundry (선단 공정) |
| 발표 | 2026.03 (GTC 2026) |
| 용도 | LLM/VLM 실시간 추론 및 운영 비용 절감 |
핵심 설계 및 특징:
- 추론 최적화: NVIDIA의 범용 GPU와 달리, LLM 추론의 지연 시간(Latency)과 처리량(Throughput) 극대화에 초점.
- 삼성 파운드리 협력: 젠슨 황 CEO가 공식 감사 인사를 전하며 삼성과의 파운드리 파트너십 강조.
- 비용 효율성: 전력 효율을 개선하여 데이터센터의 AI 서비스 운영 비용을 획기적으로 낮춤.
Groq — LPU (Language Processing Unit)
| 항목 | 사양 |
|---|---|
| 아키텍처 | LPU (Tensor Streaming Processor 기반) |
| 공정 | Gen1: 14nm / Gen2 (LPU v2): Samsung 4nm |
| 메모리 | 온칩 SRAM (HBM 미사용) |
| 특징 | 결정론적(Deterministic) 실행, 정적 스케줄링 |
핵심 설계:
- SRAM 기반: 수백 MB 온칩 SRAM을 주 메모리로 사용 → HBM 병목 제거
- 결정론적 실행: 컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
- TruePoint Numerics: 100비트 중간 누적으로 정밀도 손실 없는 양자화
- Tensor Parallelism: 하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속
벤치마크:
- Llama 2 70B: 300 토큰/초 (NVIDIA H100 대비 10배)
- TTFT(첫 토큰): 0.22초, 가장 낮은 지연 시간 편차
- ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 성능
GroqCloud API 가격 (2025.12):
| 모델 | 입력 ($/M 토큰) | 출력 ($/M 토큰) |
|---|---|---|
| Llama 4 Scout | $0.11 | $0.34 |
| Llama 3.3 70B | $0.59 | $0.79 |
지원 모델: Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral 8x7B, Qwen, DeepSeek 등
현황:
- 190만+ 개발자, Dropbox/Volkswagen/Riot Games 등 엔터프라이즈 고객
- 12개 데이터센터 (미국, 캐나다, 중동, 유럽)
- 2025.12: NVIDIA가 $200억에 인수 (비독점 라이선스 계약)
- Meta 파트너십: 공식 Llama API 추론 제공
트레이드오프:
- SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요
- 추론 전용 (학습/파인튜닝 불가)
Cerebras — WSE (Wafer Scale Engine)
| 항목 | 사양 |
|---|---|
| 칩 | WSE-3 (세계 최대 AI 칩) |
| 크기 | 46,255 mm² (웨이퍼 전체) |
| 트랜지스터 | 4조 개 (NVIDIA B200의 19배) |
| AI 코어 | 900,000개 |
| 온칩 SRAM | 44GB (H100의 ~1,000배) |
| 메모리 대역폭 | 21 PB/s (H100의 7,000배) |
| 컴퓨팅 | 125 PFLOPS (B200의 28배) |
핵심 설계:
- 웨이퍼 스케일: 칩을 자르지 않고 웨이퍼 전체를 하나의 프로세서로 사용
- Weight Streaming: 클러스터 전체를 단일 논리 프로세서로 취급
- 온칩 SRAM: 외부 메모리 접근 없이 파라미터 직접 로드 → 극한 속도
벤치마크:
- Llama 3.3 70B: 2,314 토큰/초 (Amazon Bedrock 대비 70배)
- Llama 4 Maverick (400B): 2,500 토큰/초 (NVIDIA DGX B200 대비 2배+)
- Llama 4 Scout: 2,000+ 토큰/초 (ChatGPT/Claude 대비 30배+)
- WaferLLM (WSE-2): SGLang (A100) 대비 30~40배
가격: Llama 3.1 70B 추론 $0.60/M 토큰
현황:
- 고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소
- 6개 추론 전용 데이터센터, 총 4,000만 토큰/초 (Llama 70B)
- MemoryX: 24TB ~ 1,200TB 구성 (24조 파라미터 모델 저장 가능)
- 2026 Q2 IPO 예정 (예상 기업가치 $150억+)
Etched — Sohu
| 항목 | 사양 |
|---|---|
| 아키텍처 | Transformer 전용 ASIC |
| 공정 | TSMC 4nm |
| 설립 | 2022년 (Harvard 중퇴 3인) |
핵심 설계:
- Transformer 아키텍처를 실리콘에 직접 소각 (hardcoded)
- CNN, RNN, LSTM 등 다른 아키텍처는 실행 불가
- 극도의 특화로 최대 효율 달성
벤치마크:
- 8-chip Sohu 서버: Llama 70B에서 500,000 토큰/초 (8xH100: 23,000 토큰/초 대비 ~22배)
- H100 대비 10~20배 성능/와트
현황:
- $5억+ 투자 (Peter Thiel, Ribbit Capital 등)
- TSMC 4nm 팹 용량 확보
리스크: Transformer가 아닌 새 아키텍처가 등장하면 칩 자체가 무용지물
SambaNova — RDU (Reconfigurable Dataflow Unit)
| 항목 | 사양 |
|---|---|
| 최신 칩 | SN50 |
| 아키텍처 | RDU (재구성 가능 데이터플로우) |
| 지원 | 학습 + 추론 모두 가능 |
핵심 설계:
- Google TPU, AWS Trainium과 유사한 데이터플로우 아키텍처
- SN50: 이전 세대(SN40) 대비 5배 컴퓨팅, 4배 네트워크 대역폭
- 256 가속기 멀티 테라비트 인터커넥트 연결
- 10조 파라미터, 1,000만 컨텍스트 길이 지원
현황:
- 2026.02: $3.5억 투자 + Intel 파트너십 (공동 개발)
- Intel 인수 루머 ($16억 추정)
- 고객: Los Alamos 국립연구소, SoftBank, Accenture
Google TPU — Trillium / Ironwood
| 세대 | 이름 | 특징 |
|---|---|---|
| v6e | Trillium | v5e 대비 4.7배 컴퓨팅, 2배 HBM/ICI, 67% 에너지 효율 |
| v7 | Ironwood | 추론 전용 설계, 4,614 TFLOPS, 192GB HBM, 7.2TB/s 대역폭 |
- Trillium: Gemini 2.0 학습에 사용, v5e 대비 달러당 2.1배 성능
- Ironwood: 9,216칩 팟에서 42.5 EXAFLOPS, 이전 세대 대비 10배 성능
- TPU v6e: 1.375/칩·시간 (H100: $3+/시간)
AWS Trainium
| 세대 | 특징 |
|---|---|
| Trainium2 | 83.2 PFLOPS 울트라 서버, Anthropic용 50만 칩 배포 |
| Trainium3 (2025.12) | 3nm 공정, 2.52 PFLOPS FP8, 144GB HBM3e |
- Trainium2: H100 대비 ~25% 비용으로 동등 성능
- Trainium3: Trainium2 대비 2배 성능, 40% 에너지 효율 향상
- 소프트웨어: AWS Neuron SDK
종합 비교
| 칩 | 개발사 | 아키텍처 | 추론 속도 (Llama 70B) | 학습 | 유연성 | 가격 경쟁력 |
|---|---|---|---|---|---|---|
| LPU | Groq | SRAM ASIC | 300 tok/s | X | 낮음 | 높음 |
| WSE-3 | Cerebras | 웨이퍼 스케일 | 2,314 tok/s | O | 중간 | 높음 |
| Sohu | Etched | Transformer ASIC | 500K tok/s (8칩) | X | 최저 | 미검증 |
| SN50 | SambaNova | RDU | - | O | 높음 | 중간 |
| Ironwood | TPU | - | O | 높음 | 높음 | |
| Trainium3 | AWS | 커스텀 | - | O | 높음 | 높음 |
| H100/B200 | NVIDIA | GPU (범용) | 기준선 | O | 최고 | 기준선 |
| REBEL-2 | Rebellions (리벨리온) | NPU | - | X | 중간 | 중간 |
| RNGD | FuriosaAI (퓨리오사) | NPU | - | X | 중간 | 중간 |
| Hailo-8 | Hailo | NPU (엣지) | - | X | 낮음 | 높음 |
아키텍처별 트레이드오프
유연성 높음 ←──────────────────────────→ 추론 속도 높음
GPU(NVIDIA) TPU/Trainium SambaNova Cerebras Groq Etched
범용 학습+추론 학습+추론 추론 특화 추론 전용 Transformer 전용
2025~2026 트렌드
- 추론 시대: AI 컴퓨팅의 무게중심이 학습→추론으로 전환
- NVIDIA 독점 약화: 하이퍼스케일러 커스텀 칩이 15~25% 시장 점유 예상
- ASIC 경쟁 격화: Groq/Cerebras/Etched가 추론 특화 시장 개척
- NVIDIA 대응: Groq $200억 인수, Blackwell B200의 FP4 추론 최적화
- 추론 칩 시장: 2027년까지 $250억+ 전망 (CAGR 30%+)
관련 항목
- GPU
- NVIDIA Jetson — 엣지/임베디드 AI 플랫폼
- LLM Serving Platform
- TensorRT-LLM
- Large Language Models (LLMs)