개요

tinygrad는 단순성과 성능을 결합한 신경망 프레임워크로 단 3가지 OpType으로 복잡한 모델 구현. tinybox는 tinygrad 기반의 오프라인 AI 워크스테이션으로 120B 파라미터까지 로컬 추론·학습 가능. tiny corp의 비전: “petaflop 상용화 + 모두를 위한 AI”.


tinygrad 프레임워크

3가지 OpType만으로 모든 신경망 구현

OpType설명예시 연산
ElementwiseOps1~3개 텐서에 원소 단위 연산SQRT, LOG2, ADD, MUL, WHERE
ReduceOps텐서 → 더 작은 텐서SUM, MAX
MovementOps데이터 복사 없이 이동 (가상 연산)RESHAPE, PERMUTE, EXPAND (ShapeTracker)

→ CONV·MATMUL 같은 복잡 연산도 이 3가지의 조합으로 표현

빠른 이유

1. 연산마다 맞춤형 커널 컴파일 (형태별 최적화)
2. Lazy tensor 구조 → 연산 적극적 fusion
3. 간결한 백엔드 → 커널 최적화 시 전체 성능 향상

vs PyTorch

항목tinygradPyTorch
APIPyTorch 유사표준
구조더 단순풍부하지만 복잡
상태알파 (안정성↓)프로덕션 표준
백엔드간결다양·성숙
AutoDiffforward/backward 모두 지원표준
목표”PyTorch보다 2배 빠른 논문 재현” 시 알파 종료-

tinybox 제품 라인업

red v2 (가성비)

항목사양
GPU4× AMD 9070XT
FP16(FP32 acc)778 TFLOPS
GPU RAM64GB (대역폭 2,560 GB/s)
CPU32코어 AMD EPYC
시스템 RAM128GB (204.8 GB/s)
디스크2TB NVMe (7.3 GB/s)
네트워킹2× 1GbE + OCP 3.0
전원1,600W
소음<50dB
가격$12,000 ⭐ 즉시 배송

green v2 blackwell (플래그십)

항목사양
GPU4× NVIDIA RTX PRO 6000 Blackwell
FP16(FP32 acc)3,086 TFLOPS
GPU RAM384GB (7,168 GB/s)
CPU32코어 AMD GENOA
시스템 RAM192GB (460.8 GB/s)
디스크4TB RAID + 1TB 부팅 (59.3 GB/s)
네트워킹2× 10GbE + OCP 3.0
전원2× 1,600W
소음65dB (10m 거리)
가격$65,000 즉시 배송

exabox (2027 예정)

항목사양
GPU720× RDNA5 AT0 XL
FP16(FP32 acc)1 EXAFLOP
GPU RAM25,920GB (1,244 TB/s)
CPU120× 32코어 AMD GENOA
시스템 RAM23,040GB (55.2 TB/s)
디스크480TB RAID (7.1 TB/s)
네트워킹PCIe5 3.2 TB/s 확장
전원600 kW
크기20×8×8.5 ft, 무게 20,000 lbs
출시2027년 예정
가격$10M (1천만 달러)

한 표로 보는 라인업

모델GPUTFLOPS (FP16)GPU RAM가격출시
red v24× 9070XT (AMD)77864GB$12K즉시
green v2 blackwell4× RTX PRO 6000 (NVIDIA)3,086384GB$65K즉시
exabox720× RDNA5 (AMD)1,000,000 (1 EFLOPS)25.9TB$10M2027

운영체제·환경

  • OS: Ubuntu 24.04
  • 설치: 독립형 또는 랙 마운트
  • 벤치마크: MLPerf Training 4.0에서 10배 비싼 시스템과 동급 성능 입증
  • 용도: 학습(training) + 추론(inference) 모두 가능

주문·배송

주문: 웹사이트에서 직접
결제: 전신 송금(wire transfer)만 가능
배송: 결제 후 1주 이내
수령: 샌디에이고 현장 OR 전 세계 배송
W-9: 다운로드 링크 제공

⚠️ 커스터마이징 불가 (가격·품질 유지 위함)

tinygrad 활용 사례

openpilot (Comma.ai 자율주행)

이전: Qualcomm SNPE
지금: tinygrad
  ↓ 장점
  - 더 빠른 추론
  - ONNX 로딩 지원
  - 학습 지원
  - Attention 메커니즘 지원

Snapdragon 845 GPU에서 주행 모델 실행


가격 대비 의미 (LLM 추론 관점)

green v2 (384GB GPU RAM)으로 가능한 것

모델양자화가능 여부
Llama 4 Maverick (400B)INT4✅ 단일 박스
DeepSeek V3 (671B)INT4✅ 가능
Llama 3.1 405BINT8
120B급 모델FP16✅ 여유
70B 모델FP16 다중 동시

→ 클라우드 H100 4장 ~65K** = 약 3배 저렴


유사 제품 비교

제품GPURAM가격
NVIDIA DGX H1008× H100 80GB640GB~$300K+
NVIDIA DGX B2008× B200 192GB1,536GB더 비쌈
tinybox green v24× RTX PRO 6000384GB$65K
tinybox red v24× AMD 9070XT64GB$12K
DIY 4× RTX 40904× RTX 409096GB$10K15K

→ tinybox의 차별점: 턴키 + 엔터프라이즈 GPU + 대용량 GPU RAM


tiny corp 비전

"Petaflop 상용화 + 모두를 위한 AI"

→ 클라우드 의존하지 않고 누구나
   강력한 AI 워크스테이션을 소유하는 미래

채용·투자 경로

tinygrad에 PR (GitHub 기여)
  ↓
tiny corp 채용 또는 투자 참여의 주요 경로

→ 오픈소스 기여 자체가 입사 원서


평가

장점

  • 클라우드 의존 없는 로컬 AI 인프라
  • 가격 대비 성능 우수 (특히 GPU RAM)
  • 턴키 시스템 (조립·세팅 불필요)
  • AMD GPU 옵션 (CUDA 락인 회피)
  • tinygrad 오픈소스 생태계

한계

  • tinygrad 알파 단계 (안정성 PyTorch 대비 낮음)
  • 커스터마이징 불가
  • 결제·배송 옵션 제한적
  • exabox는 일반 사용자 사정거리 밖
  • 소음 65dB(green) — 사무실 환경 부적합 가능

누구에게 적합한가?

적합부적합
로컬 LLM 추론·학습 (대규모)가벼운 개인 사용 (RTX 4090 충분)
데이터 외부 유출 불가 환경클라우드로 충분한 워크로드
자율주행·로봇 등 엣지 AI 학습단순 추론만 (전용 추론 칩이 더 적합)
AMD GPU + ROCm 활용검증된 NVIDIA + CUDA만 신뢰
연구실·스타트업대형 클라우드 계약 보유 기업

관련 항목