개요

AI Inference Accelerator는 Large Language Models (LLMs) 추론에 특화된 하드웨어입니다. NVIDIA GPU의 범용 아키텍처와 달리, ASIC/커스텀 칩으로 추론 지연 시간과 비용을 극적으로 줄이는 것이 목표입니다. 2025년을 기점으로 AI 컴퓨팅의 중심이 학습(Training)에서 **추론(Inference)**으로 전환되고 있습니다.

주요 추론 특화 칩

NVIDIA — Grok3 LPU (Language Processing Unit)

항목사양
아키텍처Grok3 LPU (Groq 기술 접목 추정)
공정Samsung Foundry (선단 공정)
발표2026.03 (GTC 2026)
용도LLM/VLM 실시간 추론 및 운영 비용 절감

핵심 설계 및 특징:

  • 추론 최적화: NVIDIA의 범용 GPU와 달리, LLM 추론의 지연 시간(Latency)과 처리량(Throughput) 극대화에 초점.
  • 삼성 파운드리 협력: 젠슨 황 CEO가 공식 감사 인사를 전하며 삼성과의 파운드리 파트너십 강조.
  • 비용 효율성: 전력 효율을 개선하여 데이터센터의 AI 서비스 운영 비용을 획기적으로 낮춤.

Groq — LPU (Language Processing Unit)

항목사양
아키텍처LPU (Tensor Streaming Processor 기반)
공정Gen1: 14nm / Gen2 (LPU v2): Samsung 4nm
메모리온칩 SRAM (HBM 미사용)
특징결정론적(Deterministic) 실행, 정적 스케줄링

핵심 설계:

  • SRAM 기반: 수백 MB 온칩 SRAM을 주 메모리로 사용 → HBM 병목 제거
  • 결정론적 실행: 컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
  • TruePoint Numerics: 100비트 중간 누적으로 정밀도 손실 없는 양자화
  • Tensor Parallelism: 하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속

벤치마크:

  • Llama 2 70B: 300 토큰/초 (NVIDIA H100 대비 10배)
  • TTFT(첫 토큰): 0.22초, 가장 낮은 지연 시간 편차
  • ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 성능

GroqCloud API 가격 (2025.12):

모델입력 ($/M 토큰)출력 ($/M 토큰)
Llama 4 Scout$0.11$0.34
Llama 3.3 70B$0.59$0.79

지원 모델: Llama 4 Scout/Maverick, Llama 3.3 70B, Mixtral 8x7B, Qwen, DeepSeek 등

현황:

  • 190만+ 개발자, Dropbox/Volkswagen/Riot Games 등 엔터프라이즈 고객
  • 12개 데이터센터 (미국, 캐나다, 중동, 유럽)
  • 2025.12: NVIDIA가 $200억에 인수 (비독점 라이선스 계약)
  • Meta 파트너십: 공식 Llama API 추론 제공

트레이드오프:

  • SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요
  • 추론 전용 (학습/파인튜닝 불가)

Cerebras — WSE (Wafer Scale Engine)

항목사양
WSE-3 (세계 최대 AI 칩)
크기46,255 mm² (웨이퍼 전체)
트랜지스터4조 개 (NVIDIA B200의 19배)
AI 코어900,000개
온칩 SRAM44GB (H100의 ~1,000배)
메모리 대역폭21 PB/s (H100의 7,000배)
컴퓨팅125 PFLOPS (B200의 28배)

핵심 설계:

  • 웨이퍼 스케일: 칩을 자르지 않고 웨이퍼 전체를 하나의 프로세서로 사용
  • Weight Streaming: 클러스터 전체를 단일 논리 프로세서로 취급
  • 온칩 SRAM: 외부 메모리 접근 없이 파라미터 직접 로드 → 극한 속도

벤치마크:

  • Llama 3.3 70B: 2,314 토큰/초 (Amazon Bedrock 대비 70배)
  • Llama 4 Maverick (400B): 2,500 토큰/초 (NVIDIA DGX B200 대비 2배+)
  • Llama 4 Scout: 2,000+ 토큰/초 (ChatGPT/Claude 대비 30배+)
  • WaferLLM (WSE-2): SGLang (A100) 대비 30~40배

가격: Llama 3.1 70B 추론 $0.60/M 토큰

현황:

  • 고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소
  • 6개 추론 전용 데이터센터, 총 4,000만 토큰/초 (Llama 70B)
  • MemoryX: 24TB ~ 1,200TB 구성 (24조 파라미터 모델 저장 가능)
  • 2026 Q2 IPO 예정 (예상 기업가치 $150억+)

Etched — Sohu

항목사양
아키텍처Transformer 전용 ASIC
공정TSMC 4nm
설립2022년 (Harvard 중퇴 3인)

핵심 설계:

  • Transformer 아키텍처를 실리콘에 직접 소각 (hardcoded)
  • CNN, RNN, LSTM 등 다른 아키텍처는 실행 불가
  • 극도의 특화로 최대 효율 달성

벤치마크:

  • 8-chip Sohu 서버: Llama 70B에서 500,000 토큰/초 (8xH100: 23,000 토큰/초 대비 ~22배)
  • H100 대비 10~20배 성능/와트

현황:

  • $5억+ 투자 (Peter Thiel, Ribbit Capital 등)
  • TSMC 4nm 팹 용량 확보

리스크: Transformer가 아닌 새 아키텍처가 등장하면 칩 자체가 무용지물


SambaNova — RDU (Reconfigurable Dataflow Unit)

항목사양
최신 칩SN50
아키텍처RDU (재구성 가능 데이터플로우)
지원학습 + 추론 모두 가능

핵심 설계:

  • Google TPU, AWS Trainium과 유사한 데이터플로우 아키텍처
  • SN50: 이전 세대(SN40) 대비 5배 컴퓨팅, 4배 네트워크 대역폭
  • 256 가속기 멀티 테라비트 인터커넥트 연결
  • 10조 파라미터, 1,000만 컨텍스트 길이 지원

현황:

  • 2026.02: $3.5억 투자 + Intel 파트너십 (공동 개발)
  • Intel 인수 루머 ($16억 추정)
  • 고객: Los Alamos 국립연구소, SoftBank, Accenture

Google TPU — Trillium / Ironwood

세대이름특징
v6eTrilliumv5e 대비 4.7배 컴퓨팅, 2배 HBM/ICI, 67% 에너지 효율
v7Ironwood추론 전용 설계, 4,614 TFLOPS, 192GB HBM, 7.2TB/s 대역폭
  • Trillium: Gemini 2.0 학습에 사용, v5e 대비 달러당 2.1배 성능
  • Ironwood: 9,216칩 팟에서 42.5 EXAFLOPS, 이전 세대 대비 10배 성능
  • TPU v6e: 1.375/칩·시간 (H100: $3+/시간)

AWS Trainium

세대특징
Trainium283.2 PFLOPS 울트라 서버, Anthropic용 50만 칩 배포
Trainium3 (2025.12)3nm 공정, 2.52 PFLOPS FP8, 144GB HBM3e
  • Trainium2: H100 대비 ~25% 비용으로 동등 성능
  • Trainium3: Trainium2 대비 2배 성능, 40% 에너지 효율 향상
  • 소프트웨어: AWS Neuron SDK

종합 비교

개발사아키텍처추론 속도 (Llama 70B)학습유연성가격 경쟁력
LPUGroqSRAM ASIC300 tok/sX낮음높음
WSE-3Cerebras웨이퍼 스케일2,314 tok/sO중간높음
SohuEtchedTransformer ASIC500K tok/s (8칩)X최저미검증
SN50SambaNovaRDU-O높음중간
IronwoodGoogleTPU-O높음높음
Trainium3AWS커스텀-O높음높음
H100/B200NVIDIAGPU (범용)기준선O최고기준선
REBEL-2Rebellions (리벨리온)NPU-X중간중간
RNGDFuriosaAI (퓨리오사)NPU-X중간중간
Hailo-8HailoNPU (엣지)-X낮음높음

아키텍처별 트레이드오프

유연성 높음 ←──────────────────────────→ 추론 속도 높음

GPU(NVIDIA)  TPU/Trainium  SambaNova  Cerebras  Groq  Etched
  범용        학습+추론     학습+추론    추론 특화  추론 전용  Transformer 전용

2025~2026 트렌드

  • 추론 시대: AI 컴퓨팅의 무게중심이 학습→추론으로 전환
  • NVIDIA 독점 약화: 하이퍼스케일러 커스텀 칩이 15~25% 시장 점유 예상
  • ASIC 경쟁 격화: Groq/Cerebras/Etched가 추론 특화 시장 개척
  • NVIDIA 대응: Groq $200억 인수, Blackwell B200의 FP4 추론 최적화
  • 추론 칩 시장: 2027년까지 $250억+ 전망 (CAGR 30%+)

관련 항목