개요

Cerebras Systems는 **WSE (Wafer Scale Engine)**라는 세계 최대 AI 칩을 개발한 미국 기업입니다. 일반 반도체처럼 웨이퍼를 칩 단위로 자르지 않고, 웨이퍼 전체를 하나의 프로세서로 사용하는 혁신적 접근으로 Large Language Models (LLMs) 추론에서 **최고 처리량(throughput)**을 달성합니다.

WSE (Wafer Scale Engine)

세대별 사양

사양WSE-1 (2019)WSE-2 (2021)WSE-3 (2024)
공정TSMC 16nmTSMC 7nmTSMC 5nm
칩 크기46,225 mm²46,225 mm²46,255 mm²
트랜지스터1.2조2.6조4조 (B200의 19배)
AI 코어400,000850,000900,000
온칩 SRAM18GB40GB44GB (H100의 ~1,000배)
메모리 대역폭-20 PB/s21 PB/s (H100의 7,000배)
컴퓨팅--125 PFLOPS (B200의 28배)

일반 GPU 칩: ~800 mm² / WSE: ~46,000 mm² → 약 57배 크기

핵심 설계 원리

1. 웨이퍼 스케일 (Wafer Scale)

  • 반도체 웨이퍼를 자르지 않고 전체를 하나의 프로세서로 사용
  • 300mm 웨이퍼 전체 면적 활용
  • 결함 내성(fault tolerance) 설계로 불량 코어 자동 우회

2. Weight Streaming

  • 클러스터 전체를 단일 논리 프로세서로 취급
  • 모델 가중치를 외부 메모리(MemoryX)에서 칩으로 스트리밍
  • GPU의 “모델을 메모리에 로딩” 방식과 근본적으로 다름

3. 온칩 SRAM

  • 44GB 온칩 SRAM으로 외부 메모리 접근 없이 연산
  • HBM 대역폭 병목 완전 제거
  • 메모리 계층 단순화 → 예측 가능한 성능

4. 2D 메시 네트워크

  • 900,000 코어가 2D 메시로 연결
  • 코어 간 통신이 나노초 단위
  • GPU 클러스터의 NVLink/InfiniBand 병목 없음

시스템 구성

구성요소역할
CS-3WSE-3 탑재 컴퓨팅 시스템 (메인 유닛)
MemoryX외부 메모리 (24TB ~ 1,200TB), 모델 가중치 저장
SwarmX네트워크 패브릭, 다수 CS-3 연결
  • MemoryX: 24조 파라미터 모델까지 저장 가능
  • SwarmX: 선형 스케일링 (CS-3 추가 시 성능 비례 증가)

벤치마크

모델Cerebras 속도비교
Llama 3.3 70B2,314 tok/sAmazon Bedrock 대비 70배
Llama 4 Maverick (400B)2,500 tok/sDGX B200 대비 2배+
Llama 4 Scout2,000+ tok/sChatGPT/Claude 대비 30배+
WaferLLM (WSE-2)-SGLang (A100) 대비 30~40배
  • 단일 사용자 기준 업계 최고 처리량
  • 데이터센터 전체: 총 4,000만 tok/s (Llama 70B 기준)

Cerebras Inference API

가격

모델가격 ($/M 토큰)
Llama 3.1 70B$0.60
Llama 3.1 8B$0.10

지원 모델

  • Llama 4 Scout / Maverick
  • Llama 3.3 70B, Llama 3.1 8B/70B
  • Qwen 2.5
  • DeepSeek R1 / V3

API 특징

  • OpenAI 호환 API
  • 초고속 응답 → 에이전트 워크플로우에 유리
  • 무료 티어 제공

현황 (2026)

  • 고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소, GSK
  • 인프라: 6개 추론 전용 데이터센터
  • IPO: 2026 Q2 예정 (예상 기업가치 $150억+)
  • 총 투자: $80억+
  • 학습 지원: Cerebras Model Studio로 커스텀 학습도 제공

Groq vs Cerebras

항목Groq (LPU)Cerebras (WSE)
칩 설계SRAM ASIC웨이퍼 스케일
핵심 강점최저 지연 시간최고 처리량
TTFT0.10.2초0.20.3초
처리량 (70B)300500 tok/s~2,300 tok/s
학습XO (제한적)
최적 용도실시간 챗봇대량 배치, 에이전트

장단점

장점:

  • 업계 최고 추론 처리량
  • 웨이퍼 스케일로 칩 간 통신 병목 없음
  • MemoryX로 초대형 모델 (수조 파라미터) 지원
  • 학습도 가능 (GPU 대비 효율적)

단점:

  • 웨이퍼 스케일 제조 수율 관리 난이도 높음
  • 시스템 가격이 매우 높음 (엔터프라이즈 전용)
  • GPU 생태계 (CUDA) 대비 소프트웨어 성숙도 부족
  • 모델 호환성이 GPU 대비 제한적

관련 항목