개요
Cerebras Systems는 **WSE (Wafer Scale Engine)**라는 세계 최대 AI 칩을 개발한 미국 기업입니다. 일반 반도체처럼 웨이퍼를 칩 단위로 자르지 않고, 웨이퍼 전체를 하나의 프로세서로 사용하는 혁신적 접근으로 Large Language Models (LLMs) 추론에서 **최고 처리량(throughput)**을 달성합니다.
- 설립: 2016년 (Andrew Feldman, 전 SeaMicro 창업자)
- 본사: Sunnyvale, California
- 웹사이트: https://cerebras.ai
- API: https://cloud.cerebras.ai
WSE (Wafer Scale Engine)
세대별 사양
| 사양 | WSE-1 (2019) | WSE-2 (2021) | WSE-3 (2024) |
|---|---|---|---|
| 공정 | TSMC 16nm | TSMC 7nm | TSMC 5nm |
| 칩 크기 | 46,225 mm² | 46,225 mm² | 46,255 mm² |
| 트랜지스터 | 1.2조 | 2.6조 | 4조 (B200의 19배) |
| AI 코어 | 400,000 | 850,000 | 900,000 |
| 온칩 SRAM | 18GB | 40GB | 44GB (H100의 ~1,000배) |
| 메모리 대역폭 | - | 20 PB/s | 21 PB/s (H100의 7,000배) |
| 컴퓨팅 | - | - | 125 PFLOPS (B200의 28배) |
일반 GPU 칩: ~800 mm² / WSE: ~46,000 mm² → 약 57배 크기
핵심 설계 원리
1. 웨이퍼 스케일 (Wafer Scale)
- 반도체 웨이퍼를 자르지 않고 전체를 하나의 프로세서로 사용
- 300mm 웨이퍼 전체 면적 활용
- 결함 내성(fault tolerance) 설계로 불량 코어 자동 우회
2. Weight Streaming
- 클러스터 전체를 단일 논리 프로세서로 취급
- 모델 가중치를 외부 메모리(MemoryX)에서 칩으로 스트리밍
- GPU의 “모델을 메모리에 로딩” 방식과 근본적으로 다름
3. 온칩 SRAM
- 44GB 온칩 SRAM으로 외부 메모리 접근 없이 연산
- HBM 대역폭 병목 완전 제거
- 메모리 계층 단순화 → 예측 가능한 성능
4. 2D 메시 네트워크
- 900,000 코어가 2D 메시로 연결
- 코어 간 통신이 나노초 단위
- GPU 클러스터의 NVLink/InfiniBand 병목 없음
시스템 구성
| 구성요소 | 역할 |
|---|---|
| CS-3 | WSE-3 탑재 컴퓨팅 시스템 (메인 유닛) |
| MemoryX | 외부 메모리 (24TB ~ 1,200TB), 모델 가중치 저장 |
| SwarmX | 네트워크 패브릭, 다수 CS-3 연결 |
- MemoryX: 24조 파라미터 모델까지 저장 가능
- SwarmX: 선형 스케일링 (CS-3 추가 시 성능 비례 증가)
벤치마크
| 모델 | Cerebras 속도 | 비교 |
|---|---|---|
| Llama 3.3 70B | 2,314 tok/s | Amazon Bedrock 대비 70배 |
| Llama 4 Maverick (400B) | 2,500 tok/s | DGX B200 대비 2배+ |
| Llama 4 Scout | 2,000+ tok/s | ChatGPT/Claude 대비 30배+ |
| WaferLLM (WSE-2) | - | SGLang (A100) 대비 30~40배 |
- 단일 사용자 기준 업계 최고 처리량
- 데이터센터 전체: 총 4,000만 tok/s (Llama 70B 기준)
Cerebras Inference API
가격
| 모델 | 가격 ($/M 토큰) |
|---|---|
| Llama 3.1 70B | $0.60 |
| Llama 3.1 8B | $0.10 |
지원 모델
- Llama 4 Scout / Maverick
- Llama 3.3 70B, Llama 3.1 8B/70B
- Qwen 2.5
- DeepSeek R1 / V3
API 특징
- OpenAI 호환 API
- 초고속 응답 → 에이전트 워크플로우에 유리
- 무료 티어 제공
현황 (2026)
- 고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소, GSK
- 인프라: 6개 추론 전용 데이터센터
- IPO: 2026 Q2 예정 (예상 기업가치 $150억+)
- 총 투자: $80억+
- 학습 지원: Cerebras Model Studio로 커스텀 학습도 제공
Groq vs Cerebras
| 항목 | Groq (LPU) | Cerebras (WSE) |
|---|---|---|
| 칩 설계 | SRAM ASIC | 웨이퍼 스케일 |
| 핵심 강점 | 최저 지연 시간 | 최고 처리량 |
| TTFT | ||
| 처리량 (70B) | ~2,300 tok/s | |
| 학습 | X | O (제한적) |
| 최적 용도 | 실시간 챗봇 | 대량 배치, 에이전트 |
장단점
장점:
- 업계 최고 추론 처리량
- 웨이퍼 스케일로 칩 간 통신 병목 없음
- MemoryX로 초대형 모델 (수조 파라미터) 지원
- 학습도 가능 (GPU 대비 효율적)
단점:
- 웨이퍼 스케일 제조 수율 관리 난이도 높음
- 시스템 가격이 매우 높음 (엔터프라이즈 전용)
- GPU 생태계 (CUDA) 대비 소프트웨어 성숙도 부족
- 모델 호환성이 GPU 대비 제한적
관련 항목
- AI Inference Accelerator — 추론 칩 종합 비교
- Groq — 경쟁사 (최저 지연 시간)
- SambaNova — 경쟁사 (학습+추론)
- LLM Serving Platform — 추론 서빙 플랫폼 비교
- GPU — 범용 GPU와의 차이
- Large Language Models (LLMs)