개요
Groq는 **LPU (Language Processing Unit)**라는 자체 AI 추론 전용 칩을 개발한 미국 기업입니다. NVIDIA GPU의 범용 아키텍처와 달리, LLM 추론에만 특화된 ASIC으로 초저지연(ultra-low latency) 추론을 구현합니다. 2025년 12월 NVIDIA에 $200억에 인수되었습니다.
- 설립: 2016년 (Jonathan Ross, 전 Google TPU 설계자)
- 본사: Mountain View, California
- 웹사이트: https://groq.com
- API 콘솔: https://console.groq.com
⚠️ 음향 기기 브랜드 “Grok” (xAI의 AI 모델명)과 다른 회사
LPU (Language Processing Unit)
하드웨어 사양
| 항목 | Gen1 | Gen2 (LPU v2) |
|---|---|---|
| 공정 | 14nm | Samsung 4nm |
| 메모리 | 온칩 SRAM | 온칩 SRAM (증가) |
| 특징 | 초기 상용화 | 성능/효율 대폭 향상 |
핵심 설계 원리
1. SRAM 기반 (HBM 미사용)
- 수백 MB 온칩 SRAM을 주 메모리로 사용
- GPU의 HBM 병목 (메모리 대역폭 제한) 완전 제거
- 트레이드오프: SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요
2. 결정론적(Deterministic) 실행
- 컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
- GPU처럼 런타임 스케줄링 없음 → 예측 가능한 지연 시간
- 배치 간 성능 편차 거의 없음
3. TSP (Tensor Streaming Processor)
- LPU의 기반 아키텍처
- 데이터가 프로세서 사이를 “스트리밍”하며 처리
- 메모리 접근 패턴이 완전히 정적
4. TruePoint Numerics
- 100비트 중간 누적(accumulation)으로 정밀도 손실 없는 양자화
- INT8/FP16 양자화 시에도 FP32에 근접한 정확도 유지
5. Tensor Parallelism
- 하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속
- 칩 간 통신이 결정론적이므로 동기화 오버헤드 최소
벤치마크
| 모델 | Groq 속도 | H100 대비 | TTFT |
|---|---|---|---|
| Llama 2 70B | 300 tok/s | 10배+ | 0.22초 |
| Llama 3 70B | ~500 tok/s | 10배+ | ~0.15초 |
| Mixtral 8x7B | ~500 tok/s | - | ~0.1초 |
- ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 속도
- TTFT (Time To First Token): 업계 최저, 지연 시간 편차도 가장 낮음
- 실시간 대화형 AI에 가장 적합
GroqCloud API
가격 ($/M 토큰)
| 모델 | 입력 | 출력 |
|---|---|---|
| Llama 4 Scout | $0.11 | $0.34 |
| Llama 4 Maverick | $0.50 | $0.77 |
| Llama 3.3 70B | $0.59 | $0.79 |
| Llama 3.1 8B | $0.05 | $0.08 |
| Mixtral 8x7B | $0.24 | $0.24 |
| DeepSeek R1 (Distill 70B) | $0.75 | $0.99 |
지원 모델
- Llama 4 Scout / Maverick
- Llama 3.3 70B, Llama 3.1 8B/70B
- Mixtral 8x7B
- Qwen 2.5 Coder 32B
- DeepSeek R1 (Distill)
- Whisper Large v3 (음성 → 텍스트)
API 특징
- OpenAI 호환 API: 기존 OpenAI SDK로 바로 사용 가능
- Tool Use / Function Calling 지원
- JSON 모드: 구조화된 출력
- Audio API: Whisper 기반 음성 인식
- 무료 티어: 분당/일일 요청 제한 있음
현황 (2026)
- 190만+ 개발자 등록
- 엔터프라이즈 고객: Dropbox, Volkswagen, Riot Games, Samsung 등
- 12개 데이터센터: 미국, 캐나다, 중동, 유럽
- 2025.12: NVIDIA와 $200억 비독점 라이선스 계약 체결 (인수 아님 — 타사에도 LPU 공급 가능)
- Meta 파트너십: 공식 Llama API 추론 제공
NVIDIA‑Groq $200억 거래 상세 (2025.12)
핵심: 이것은 인수(acquisition)가 아니라 기술 라이선스 + 핵심 인력 영입입니다.
거래 구조
- 엔비디아가 그록과 비독점적(Non‑exclusive) 기술 라이선스 계약 체결
- 그록의 창업자 Jonathan Ross, 사장 Sunny Madra 등 핵심 엔지니어가 엔비디아로 합류
- 그록 본사는 독립 법인으로 유지, CFO 출신 Simon Edwards가 새 CEO 역임
- GroqCloud 사업부도 그대로 유지
일반적 인수와 다른 점
- 인수 = 회사 통째로 매입 → 경영권 이전
- 이번 거래 = 기술 사용 권리 확보 + 핵심 인력 영입
- 그록은 여전히 독립 회사, 법인 유지, GroqCloud 사업 지속
엔비디아가 통째로 인수하지 않은 이유
| 이유 | 설명 |
|---|---|
| 시간 | 인수 승인 절차가 길고, 반독점 규제로 몇 달씩 지연 가능. AI 시장은 하루가 다르게 변화 |
| 규제 | AI 칩 회사를 통째로 삼키면 각국 규제기관(FTC 등)의 반독점 조사 대상 |
| 자금 효율 | 엔비디아가 원하는 건 브랜드·조직이 아닌 추론 칩 설계 노하우 + 핵심 인재. 나머지는 엔비디아가 더 잘 함 (생산은 TSMC·한국 파트너, 고객은 이미 확보, 소프트웨어도 완성) |
AI 투자자 시그널
- 엔비디아가 **606억의 약 1/3)을 들여 추론 칩 기술에 투자했다는 점 자체가 시그널
- AI 시장이 학습(training)에서 추론(inference) 중심으로 전환되고 있음을 엔비디아 스스로 확인한 셈
- 추론 칩 시장 경쟁이 본격화될 것임을 시사
장단점
장점:
- 업계 최저 지연 시간 (실시간 챗봇에 이상적)
- 결정론적 실행 → 성능 예측 가능
- 저렴한 API 가격
- OpenAI 호환 API로 마이그레이션 용이
단점:
- 추론 전용 (학습/파인튜닝 불가)
- 커스텀 모델 업로드 불가 (지원 모델만 사용)
- SRAM 비용으로 대형 모델(400B+) 서빙에 칩 다수 필요
- NVIDIA 인수 후 독립성 변화 가능
관련 항목
- AI Inference Accelerator — 추론 칩 종합 비교
- Cerebras — 경쟁사 (최고 처리량)
- SambaNova — 경쟁사 (학습+추론)
- LLM Serving Platform — 추론 서빙 플랫폼 비교
- GPU — 범용 GPU와의 차이
- Large Language Models (LLMs)