Cerebras

개요

Cerebras Systems는 **WSE (Wafer Scale Engine)**라는 세계 최대 AI 칩을 개발한 미국 기업입니다. 일반 반도체처럼 웨이퍼를 칩 단위로 자르지 않고, 웨이퍼 전체를 하나의 프로세서로 사용하는 혁신적 접근으로 Large Language Models (LLMs) 추론에서 **최고 처리량(throughput)**을 달성합니다.

설립: 2016년 (Andrew Feldman, 전 SeaMicro 창업자)
본사: Sunnyvale, California
웹사이트: https://cerebras.ai
API: https://cloud.cerebras.ai

WSE (Wafer Scale Engine)

세대별 사양

사양	WSE-1 (2019)	WSE-2 (2021)	WSE-3 (2024)
공정	TSMC 16nm	TSMC 7nm	TSMC 5nm
칩 크기	46,225 mm²	46,225 mm²	46,255 mm²
트랜지스터	1.2조	2.6조	4조 (B200의 19배)
AI 코어	400,000	850,000	900,000
온칩 SRAM	18GB	40GB	44GB (H100의 ~1,000배)
메모리 대역폭	-	20 PB/s	21 PB/s (H100의 7,000배)
컴퓨팅	-	-	125 PFLOPS (B200의 28배)

일반 GPU 칩: ~800 mm² / WSE: ~46,000 mm² → 약 57배 크기

핵심 설계 원리

1. 웨이퍼 스케일 (Wafer Scale)

반도체 웨이퍼를 자르지 않고 전체를 하나의 프로세서로 사용
300mm 웨이퍼 전체 면적 활용
결함 내성(fault tolerance) 설계로 불량 코어 자동 우회

2. Weight Streaming

클러스터 전체를 단일 논리 프로세서로 취급
모델 가중치를 외부 메모리(MemoryX)에서 칩으로 스트리밍
GPU의 “모델을 메모리에 로딩” 방식과 근본적으로 다름

3. 온칩 SRAM

44GB 온칩 SRAM으로 외부 메모리 접근 없이 연산
HBM 대역폭 병목 완전 제거
메모리 계층 단순화 → 예측 가능한 성능

4. 2D 메시 네트워크

900,000 코어가 2D 메시로 연결
코어 간 통신이 나노초 단위
GPU 클러스터의 NVLink/InfiniBand 병목 없음

시스템 구성

구성요소	역할
CS-3	WSE-3 탑재 컴퓨팅 시스템 (메인 유닛)
MemoryX	외부 메모리 (24TB ~ 1,200TB), 모델 가중치 저장
SwarmX	네트워크 패브릭, 다수 CS-3 연결

MemoryX: 24조 파라미터 모델까지 저장 가능
SwarmX: 선형 스케일링 (CS-3 추가 시 성능 비례 증가)

벤치마크

모델	Cerebras 속도	비교
Llama 3.3 70B	2,314 tok/s	Amazon Bedrock 대비 70배
Llama 4 Maverick (400B)	2,500 tok/s	DGX B200 대비 2배+
Llama 4 Scout	2,000+ tok/s	ChatGPT/Claude 대비 30배+
WaferLLM (WSE-2)	-	SGLang (A100) 대비 30~40배

단일 사용자 기준 업계 최고 처리량
데이터센터 전체: 총 4,000만 tok/s (Llama 70B 기준)

Cerebras Inference API

가격

모델	가격 ($/M 토큰)
Llama 3.1 70B	$0.60
Llama 3.1 8B	$0.10

지원 모델

Llama 4 Scout / Maverick
Llama 3.3 70B, Llama 3.1 8B/70B
Qwen 2.5
DeepSeek R1 / V3

API 특징

OpenAI 호환 API
초고속 응답 → 에이전트 워크플로우에 유리
무료 티어 제공

현황 (2026)

고객: OpenAI ($100억 투자), Meta, Mayo Clinic, Los Alamos 국립연구소, GSK
인프라: 6개 추론 전용 데이터센터
IPO: 2026 Q2 예정 (예상 기업가치 $150억+)
총 투자: $80억+
학습 지원: Cerebras Model Studio로 커스텀 학습도 제공

Groq vs Cerebras

항목	Groq (LPU)	Cerebras (WSE)
칩 설계	SRAM ASIC	웨이퍼 스케일
핵심 강점	최저 지연 시간	최고 처리량
TTFT	~~0.1~~0.2초	~~0.2~~0.3초
처리량 (70B)	~~300~~500 tok/s	~2,300 tok/s
학습	X	O (제한적)
최적 용도	실시간 챗봇	대량 배치, 에이전트

장단점

장점:

업계 최고 추론 처리량
웨이퍼 스케일로 칩 간 통신 병목 없음
MemoryX로 초대형 모델 (수조 파라미터) 지원
학습도 가능 (GPU 대비 효율적)

단점:

웨이퍼 스케일 제조 수율 관리 난이도 높음
시스템 가격이 매우 높음 (엔터프라이즈 전용)
GPU 생태계 (CUDA) 대비 소프트웨어 성숙도 부족
모델 호환성이 GPU 대비 제한적

Bigstones

Explorer