Groq

개요

Groq는 **LPU (Language Processing Unit)**라는 자체 AI 추론 전용 칩을 개발한 미국 기업입니다. NVIDIA GPU의 범용 아키텍처와 달리, LLM 추론에만 특화된 ASIC으로 초저지연(ultra-low latency) 추론을 구현합니다. 2025년 12월 NVIDIA에 $200억에 인수되었습니다.

설립: 2016년 (Jonathan Ross, 전 Google TPU 설계자)
본사: Mountain View, California
웹사이트: https://groq.com
API 콘솔: https://console.groq.com

⚠️ 음향 기기 브랜드 “Grok” (xAI의 AI 모델명)과 다른 회사

LPU (Language Processing Unit)

하드웨어 사양

항목	Gen1	Gen2 (LPU v2)
공정	14nm	Samsung 4nm
메모리	온칩 SRAM	온칩 SRAM (증가)
특징	초기 상용화	성능/효율 대폭 향상

핵심 설계 원리

1. SRAM 기반 (HBM 미사용)

수백 MB 온칩 SRAM을 주 메모리로 사용
GPU의 HBM 병목 (메모리 대역폭 제한) 완전 제거
트레이드오프: SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요

2. 결정론적(Deterministic) 실행

컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
GPU처럼 런타임 스케줄링 없음 → 예측 가능한 지연 시간
배치 간 성능 편차 거의 없음

3. TSP (Tensor Streaming Processor)

LPU의 기반 아키텍처
데이터가 프로세서 사이를 “스트리밍”하며 처리
메모리 접근 패턴이 완전히 정적

4. TruePoint Numerics

100비트 중간 누적(accumulation)으로 정밀도 손실 없는 양자화
INT8/FP16 양자화 시에도 FP32에 근접한 정확도 유지

5. Tensor Parallelism

하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속
칩 간 통신이 결정론적이므로 동기화 오버헤드 최소

벤치마크

모델	Groq 속도	H100 대비	TTFT
Llama 2 70B	300 tok/s	10배+	0.22초
Llama 3 70B	~500 tok/s	10배+	~0.15초
Mixtral 8x7B	~500 tok/s	-	~0.1초

ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 속도
TTFT (Time To First Token): 업계 최저, 지연 시간 편차도 가장 낮음
실시간 대화형 AI에 가장 적합

GroqCloud API

가격 ($/M 토큰)

모델	입력	출력
Llama 4 Scout	$0.11	$0.34
Llama 4 Maverick	$0.50	$0.77
Llama 3.3 70B	$0.59	$0.79
Llama 3.1 8B	$0.05	$0.08
Mixtral 8x7B	$0.24	$0.24
DeepSeek R1 (Distill 70B)	$0.75	$0.99

지원 모델

Llama 4 Scout / Maverick
Llama 3.3 70B, Llama 3.1 8B/70B
Mixtral 8x7B
Qwen 2.5 Coder 32B
DeepSeek R1 (Distill)
Whisper Large v3 (음성 → 텍스트)

API 특징

OpenAI 호환 API: 기존 OpenAI SDK로 바로 사용 가능
Tool Use / Function Calling 지원
JSON 모드: 구조화된 출력
Audio API: Whisper 기반 음성 인식
무료 티어: 분당/일일 요청 제한 있음

현황 (2026)

190만+ 개발자 등록
엔터프라이즈 고객: Dropbox, Volkswagen, Riot Games, Samsung 등
12개 데이터센터: 미국, 캐나다, 중동, 유럽
2025.12: NVIDIA와 $200억 비독점 라이선스 계약 체결 (인수 아님 — 타사에도 LPU 공급 가능)
Meta 파트너십: 공식 Llama API 추론 제공

NVIDIA‑Groq $200억 거래 상세 (2025.12)

핵심: 이것은 인수(acquisition)가 아니라 기술 라이선스 + 핵심 인력 영입입니다.

거래 구조

엔비디아가 그록과 비독점적(Non‑exclusive) 기술 라이선스 계약 체결
그록의 창업자 Jonathan Ross, 사장 Sunny Madra 등 핵심 엔지니어가 엔비디아로 합류
그록 본사는 독립 법인으로 유지, CFO 출신 Simon Edwards가 새 CEO 역임
GroqCloud 사업부도 그대로 유지

일반적 인수와 다른 점

인수 = 회사 통째로 매입 → 경영권 이전
이번 거래 = 기술 사용 권리 확보 + 핵심 인력 영입
그록은 여전히 독립 회사, 법인 유지, GroqCloud 사업 지속

엔비디아가 통째로 인수하지 않은 이유

이유	설명
시간	인수 승인 절차가 길고, 반독점 규제로 몇 달씩 지연 가능. AI 시장은 하루가 다르게 변화
규제	AI 칩 회사를 통째로 삼키면 각국 규제기관(FTC 등)의 반독점 조사 대상
자금 효율	엔비디아가 원하는 건 브랜드·조직이 아닌 추론 칩 설계 노하우 + 핵심 인재. 나머지는 엔비디아가 더 잘 함 (생산은 TSMC·한국 파트너, 고객은 이미 확보, 소프트웨어도 완성)

AI 투자자 시그널

엔비디아가 ** $200 억 * * (현금보유액$ 606억의 약 1/3)을 들여 추론 칩 기술에 투자했다는 점 자체가 시그널
AI 시장이 학습(training)에서 추론(inference) 중심으로 전환되고 있음을 엔비디아 스스로 확인한 셈
추론 칩 시장 경쟁이 본격화될 것임을 시사

장단점

장점:

업계 최저 지연 시간 (실시간 챗봇에 이상적)
결정론적 실행 → 성능 예측 가능
저렴한 API 가격
OpenAI 호환 API로 마이그레이션 용이

단점:

추론 전용 (학습/파인튜닝 불가)
커스텀 모델 업로드 불가 (지원 모델만 사용)
SRAM 비용으로 대형 모델(400B+) 서빙에 칩 다수 필요
NVIDIA 인수 후 독립성 변화 가능

Bigstones

Explorer