개요

Groq는 **LPU (Language Processing Unit)**라는 자체 AI 추론 전용 칩을 개발한 미국 기업입니다. NVIDIA GPU의 범용 아키텍처와 달리, LLM 추론에만 특화된 ASIC으로 초저지연(ultra-low latency) 추론을 구현합니다. 2025년 12월 NVIDIA에 $200억에 인수되었습니다.

⚠️ 음향 기기 브랜드 “Grok” (xAI의 AI 모델명)과 다른 회사

LPU (Language Processing Unit)

하드웨어 사양

항목Gen1Gen2 (LPU v2)
공정14nmSamsung 4nm
메모리온칩 SRAM온칩 SRAM (증가)
특징초기 상용화성능/효율 대폭 향상

핵심 설계 원리

1. SRAM 기반 (HBM 미사용)

  • 수백 MB 온칩 SRAM을 주 메모리로 사용
  • GPU의 HBM 병목 (메모리 대역폭 제한) 완전 제거
  • 트레이드오프: SRAM 비용이 높아 하나의 모델에 수백~수천 칩 필요

2. 결정론적(Deterministic) 실행

  • 컴파일러가 클럭 사이클 단위로 전체 실행 그래프를 미리 계산
  • GPU처럼 런타임 스케줄링 없음 → 예측 가능한 지연 시간
  • 배치 간 성능 편차 거의 없음

3. TSP (Tensor Streaming Processor)

  • LPU의 기반 아키텍처
  • 데이터가 프로세서 사이를 “스트리밍”하며 처리
  • 메모리 접근 패턴이 완전히 정적

4. TruePoint Numerics

  • 100비트 중간 누적(accumulation)으로 정밀도 손실 없는 양자화
  • INT8/FP16 양자화 시에도 FP32에 근접한 정확도 유지

5. Tensor Parallelism

  • 하나의 레이어를 여러 LPU에 분할하여 단일 포워드 패스 가속
  • 칩 간 통신이 결정론적이므로 동기화 오버헤드 최소

벤치마크

모델Groq 속도H100 대비TTFT
Llama 2 70B300 tok/s10배+0.22초
Llama 3 70B~500 tok/s10배+~0.15초
Mixtral 8x7B~500 tok/s-~0.1초
  • ArtificialAnalysis.ai 벤치마크에서 차트 축 확장이 필요할 정도의 속도
  • TTFT (Time To First Token): 업계 최저, 지연 시간 편차도 가장 낮음
  • 실시간 대화형 AI에 가장 적합

GroqCloud API

가격 ($/M 토큰)

모델입력출력
Llama 4 Scout$0.11$0.34
Llama 4 Maverick$0.50$0.77
Llama 3.3 70B$0.59$0.79
Llama 3.1 8B$0.05$0.08
Mixtral 8x7B$0.24$0.24
DeepSeek R1 (Distill 70B)$0.75$0.99

지원 모델

  • Llama 4 Scout / Maverick
  • Llama 3.3 70B, Llama 3.1 8B/70B
  • Mixtral 8x7B
  • Qwen 2.5 Coder 32B
  • DeepSeek R1 (Distill)
  • Whisper Large v3 (음성 → 텍스트)

API 특징

  • OpenAI 호환 API: 기존 OpenAI SDK로 바로 사용 가능
  • Tool Use / Function Calling 지원
  • JSON 모드: 구조화된 출력
  • Audio API: Whisper 기반 음성 인식
  • 무료 티어: 분당/일일 요청 제한 있음

현황 (2026)

  • 190만+ 개발자 등록
  • 엔터프라이즈 고객: Dropbox, Volkswagen, Riot Games, Samsung 등
  • 12개 데이터센터: 미국, 캐나다, 중동, 유럽
  • 2025.12: NVIDIA와 $200억 비독점 라이선스 계약 체결 (인수 아님 — 타사에도 LPU 공급 가능)
  • Meta 파트너십: 공식 Llama API 추론 제공

NVIDIA‑Groq $200억 거래 상세 (2025.12)

핵심: 이것은 인수(acquisition)가 아니라 기술 라이선스 + 핵심 인력 영입입니다.

거래 구조

  • 엔비디아가 그록과 비독점적(Non‑exclusive) 기술 라이선스 계약 체결
  • 그록의 창업자 Jonathan Ross, 사장 Sunny Madra 등 핵심 엔지니어가 엔비디아로 합류
  • 그록 본사는 독립 법인으로 유지, CFO 출신 Simon Edwards가 새 CEO 역임
  • GroqCloud 사업부도 그대로 유지

일반적 인수와 다른 점

  • 인수 = 회사 통째로 매입 → 경영권 이전
  • 이번 거래 = 기술 사용 권리 확보 + 핵심 인력 영입
  • 그록은 여전히 독립 회사, 법인 유지, GroqCloud 사업 지속

엔비디아가 통째로 인수하지 않은 이유

이유설명
시간인수 승인 절차가 길고, 반독점 규제로 몇 달씩 지연 가능. AI 시장은 하루가 다르게 변화
규제AI 칩 회사를 통째로 삼키면 각국 규제기관(FTC 등)의 반독점 조사 대상
자금 효율엔비디아가 원하는 건 브랜드·조직이 아닌 추론 칩 설계 노하우 + 핵심 인재. 나머지는 엔비디아가 더 잘 함 (생산은 TSMC·한국 파트너, 고객은 이미 확보, 소프트웨어도 완성)

AI 투자자 시그널

  • 엔비디아가 **606억의 약 1/3)을 들여 추론 칩 기술에 투자했다는 점 자체가 시그널
  • AI 시장이 학습(training)에서 추론(inference) 중심으로 전환되고 있음을 엔비디아 스스로 확인한 셈
  • 추론 칩 시장 경쟁이 본격화될 것임을 시사

장단점

장점:

  • 업계 최저 지연 시간 (실시간 챗봇에 이상적)
  • 결정론적 실행 → 성능 예측 가능
  • 저렴한 API 가격
  • OpenAI 호환 API로 마이그레이션 용이

단점:

  • 추론 전용 (학습/파인튜닝 불가)
  • 커스텀 모델 업로드 불가 (지원 모델만 사용)
  • SRAM 비용으로 대형 모델(400B+) 서빙에 칩 다수 필요
  • NVIDIA 인수 후 독립성 변화 가능

관련 항목