tinygrad & tinybox

개요

tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로 단 3가지 OpType으로 복잡한 모델 구현. tinybox는 tinygrad 기반의 오프라인 AI 워크스테이션으로 120B 파라미터까지 로컬 추론·학습 가능. tiny corp의 비전: “petaflop 상용화 + 모두를 위한 AI”.

개발: tiny corp (George Hotz 주도)
공식 사이트: https://tinygrad.org
GitHub: https://github.com/tinygrad/tinygrad
활용 사례: openpilot (자율주행) — Snapdragon 845 GPU에서 주행 모델 실행

tinygrad 프레임워크

3가지 OpType만으로 모든 신경망 구현

OpType	설명	예시 연산
ElementwiseOps	1~3개 텐서에 원소 단위 연산	SQRT, LOG2, ADD, MUL, WHERE
ReduceOps	텐서 → 더 작은 텐서	SUM, MAX
MovementOps	데이터 복사 없이 이동 (가상 연산)	RESHAPE, PERMUTE, EXPAND (ShapeTracker)

→ CONV·MATMUL 같은 복잡 연산도 이 3가지의 조합으로 표현

빠른 이유

1. 연산마다 맞춤형 커널 컴파일 (형태별 최적화)
2. Lazy tensor 구조 → 연산 적극적 fusion
3. 간결한 백엔드 → 커널 최적화 시 전체 성능 향상

vs PyTorch

항목	tinygrad	PyTorch
API	PyTorch 유사	표준
구조	더 단순	풍부하지만 복잡
상태	알파 (안정성↓)	프로덕션 표준
백엔드	간결	다양·성숙
AutoDiff	forward/backward 모두 지원	표준
목표	”PyTorch보다 2배 빠른 논문 재현” 시 알파 종료	-

tinybox 제품 라인업

red v2 (가성비)

항목	사양
GPU	4× AMD 9070XT
FP16(FP32 acc)	778 TFLOPS
GPU RAM	64GB (대역폭 2,560 GB/s)
CPU	32코어 AMD EPYC
시스템 RAM	128GB (204.8 GB/s)
디스크	2TB NVMe (7.3 GB/s)
네트워킹	2× 1GbE + OCP 3.0
전원	1,600W
소음	<50dB
가격	$12,000 ⭐ 즉시 배송

green v2 blackwell (플래그십)

항목	사양
GPU	4× NVIDIA RTX PRO 6000 Blackwell
FP16(FP32 acc)	3,086 TFLOPS
GPU RAM	384GB (7,168 GB/s)
CPU	32코어 AMD GENOA
시스템 RAM	192GB (460.8 GB/s)
디스크	4TB RAID + 1TB 부팅 (59.3 GB/s)
네트워킹	2× 10GbE + OCP 3.0
전원	2× 1,600W
소음	65dB (10m 거리)
가격	$65,000 즉시 배송

exabox (2027 예정)

항목	사양
GPU	720× RDNA5 AT0 XL
FP16(FP32 acc)	약 1 EXAFLOP ⭐
GPU RAM	25,920GB (1,244 TB/s)
CPU	120× 32코어 AMD GENOA
시스템 RAM	23,040GB (55.2 TB/s)
디스크	480TB RAID (7.1 TB/s)
네트워킹	PCIe5 3.2 TB/s 확장
전원	600 kW
크기	20×8×8.5 ft, 무게 20,000 lbs
출시	2027년 예정
가격	약 $10M (1천만 달러)

한 표로 보는 라인업

모델	GPU	TFLOPS (FP16)	GPU RAM	가격	출시
red v2	4× 9070XT (AMD)	778	64GB	$12K	즉시
green v2 blackwell	4× RTX PRO 6000 (NVIDIA)	3,086	384GB	$65K	즉시
exabox	720× RDNA5 (AMD)	1,000,000 (1 EFLOPS)	25.9TB	$10M	2027

운영체제·환경

OS: Ubuntu 24.04
설치: 독립형 또는 랙 마운트
벤치마크: MLPerf Training 4.0에서 10배 비싼 시스템과 동급 성능 입증
용도: 학습(training) + 추론(inference) 모두 가능

주문·배송

주문: 웹사이트에서 직접
결제: 전신 송금(wire transfer)만 가능
배송: 결제 후 1주 이내
수령: 샌디에이고 현장 OR 전 세계 배송
W-9: 다운로드 링크 제공

⚠️ 커스터마이징 불가 (가격·품질 유지 위함)

tinygrad 활용 사례

openpilot (Comma.ai 자율주행)

이전: Qualcomm SNPE
지금: tinygrad
  ↓ 장점
  - 더 빠른 추론
  - ONNX 로딩 지원
  - 학습 지원
  - Attention 메커니즘 지원

Snapdragon 845 GPU에서 주행 모델 실행

가격 대비 의미 (LLM 추론 관점)

green v2 (384GB GPU RAM)으로 가능한 것

모델	양자화	가능 여부
Llama 4 Maverick (400B)	INT4	✅ 단일 박스
DeepSeek V3 (671B)	INT4	✅ 가능
Llama 3.1 405B	INT8	✅
120B급 모델	FP16	✅ 여유
70B 모델	FP16 다중 동시	✅

→ 클라우드 H100 4장 ~ $200 K v s * * g ree n v 2$ 65K** = 약 3배 저렴

유사 제품 비교

제품	GPU	RAM	가격
NVIDIA DGX H100	8× H100 80GB	640GB	~$300K+
NVIDIA DGX B200	8× B200 192GB	1,536GB	더 비쌈
tinybox green v2	4× RTX PRO 6000	384GB	$65K
tinybox red v2	4× AMD 9070XT	64GB	$12K
DIY 4× RTX 4090	4× RTX 4090	96GB	~~$10K~~15K

→ tinybox의 차별점: 턴키 + 엔터프라이즈 GPU + 대용량 GPU RAM

tiny corp 비전

"Petaflop 상용화 + 모두를 위한 AI"

→ 클라우드 의존하지 않고 누구나
   강력한 AI 워크스테이션을 소유하는 미래

채용·투자 경로

tinygrad에 PR (GitHub 기여)
  ↓
tiny corp 채용 또는 투자 참여의 주요 경로

→ 오픈소스 기여 자체가 입사 원서

평가

장점

클라우드 의존 없는 로컬 AI 인프라
가격 대비 성능 우수 (특히 GPU RAM)
턴키 시스템 (조립·세팅 불필요)
AMD GPU 옵션 (CUDA 락인 회피)
tinygrad 오픈소스 생태계

한계

tinygrad 알파 단계 (안정성 PyTorch 대비 낮음)
커스터마이징 불가
결제·배송 옵션 제한적
exabox는 일반 사용자 사정거리 밖
소음 65dB(green) — 사무실 환경 부적합 가능

누구에게 적합한가?

적합	부적합
로컬 LLM 추론·학습 (대규모)	가벼운 개인 사용 (RTX 4090 충분)
데이터 외부 유출 불가 환경	클라우드로 충분한 워크로드
자율주행·로봇 등 엣지 AI 학습	단순 추론만 (전용 추론 칩이 더 적합)
AMD GPU + ROCm 활용	검증된 NVIDIA + CUDA만 신뢰
연구실·스타트업	대형 클라우드 계약 보유 기업

Bigstones

Explorer