개요
tinygrad 는 단순성과 성능을 결합한 신경망 프레임워크로 단 3가지 OpType 으로 복잡한 모델 구현. tinybox 는 tinygrad 기반의 오프라인 AI 워크스테이션 으로 120B 파라미터까지 로컬 추론·학습 가능. tiny corp의 비전: “petaflop 상용화 + 모두를 위한 AI” .
tinygrad 프레임워크
3가지 OpType만으로 모든 신경망 구현
OpType 설명 예시 연산 ElementwiseOps 1~3개 텐서에 원소 단위 연산 SQRT, LOG2, ADD, MUL, WHERE ReduceOps 텐서 → 더 작은 텐서 SUM, MAX MovementOps 데이터 복사 없이 이동 (가상 연산) RESHAPE, PERMUTE, EXPAND (ShapeTracker)
→ CONV·MATMUL 같은 복잡 연산도 이 3가지의 조합으로 표현
빠른 이유
1. 연산마다 맞춤형 커널 컴파일 (형태별 최적화)
2. Lazy tensor 구조 → 연산 적극적 fusion
3. 간결한 백엔드 → 커널 최적화 시 전체 성능 향상
vs PyTorch
항목 tinygrad PyTorch API PyTorch 유사 표준 구조 더 단순 풍부하지만 복잡 상태 알파 (안정성↓) 프로덕션 표준 백엔드 간결 다양·성숙 AutoDiff forward/backward 모두 지원 표준 목표 ”PyTorch보다 2배 빠른 논문 재현” 시 알파 종료 -
tinybox 제품 라인업
red v2 (가성비)
항목 사양 GPU 4× AMD 9070XT FP16(FP32 acc) 778 TFLOPS GPU RAM 64GB (대역폭 2,560 GB/s) CPU 32코어 AMD EPYC 시스템 RAM 128GB (204.8 GB/s) 디스크 2TB NVMe (7.3 GB/s) 네트워킹 2× 1GbE + OCP 3.0 전원 1,600W 소음 <50dB 가격 $12,000 ⭐ 즉시 배송
green v2 blackwell (플래그십)
항목 사양 GPU 4× NVIDIA RTX PRO 6000 Blackwell FP16(FP32 acc) 3,086 TFLOPS GPU RAM 384GB (7,168 GB/s)CPU 32코어 AMD GENOA 시스템 RAM 192GB (460.8 GB/s) 디스크 4TB RAID + 1TB 부팅 (59.3 GB/s) 네트워킹 2× 10GbE + OCP 3.0 전원 2× 1,600W 소음 65dB (10m 거리) 가격 $65,000 즉시 배송
exabox (2027 예정)
항목 사양 GPU 720× RDNA5 AT0 XL FP16(FP32 acc) 약 1 EXAFLOP ⭐ GPU RAM 25,920GB (1,244 TB/s) CPU 120× 32코어 AMD GENOA 시스템 RAM 23,040GB (55.2 TB/s) 디스크 480TB RAID (7.1 TB/s) 네트워킹 PCIe5 3.2 TB/s 확장 전원 600 kW 크기 20×8×8.5 ft, 무게 20,000 lbs 출시 2027년 예정 가격 약 $10M (1천만 달러)
한 표로 보는 라인업
모델 GPU TFLOPS (FP16) GPU RAM 가격 출시 red v2 4× 9070XT (AMD) 778 64GB $12K 즉시 green v2 blackwell 4× RTX PRO 6000 (NVIDIA) 3,086 384GB $65K 즉시 exabox 720× RDNA5 (AMD) 1,000,000 (1 EFLOPS)25.9TB $10M 2027
운영체제·환경
OS : Ubuntu 24.04
설치 : 독립형 또는 랙 마운트
벤치마크 : MLPerf Training 4.0에서 10배 비싼 시스템과 동급 성능 입증
용도 : 학습(training) + 추론(inference) 모두 가능
주문·배송
주문: 웹사이트에서 직접
결제: 전신 송금(wire transfer)만 가능
배송: 결제 후 1주 이내
수령: 샌디에이고 현장 OR 전 세계 배송
W-9: 다운로드 링크 제공
⚠️ 커스터마이징 불가 (가격·품질 유지 위함)
tinygrad 활용 사례
openpilot (Comma.ai 자율주행)
이전: Qualcomm SNPE
지금: tinygrad
↓ 장점
- 더 빠른 추론
- ONNX 로딩 지원
- 학습 지원
- Attention 메커니즘 지원
Snapdragon 845 GPU에서 주행 모델 실행
가격 대비 의미 (LLM 추론 관점)
green v2 (384GB GPU RAM)으로 가능한 것
모델 양자화 가능 여부 Llama 4 Maverick (400B) INT4 ✅ 단일 박스 DeepSeek V3 (671B) INT4 ✅ 가능 Llama 3.1 405B INT8 ✅ 120B급 모델 FP16 ✅ 여유 70B 모델 FP16 다중 동시 ✅
→ 클라우드 H100 4장 ~200 K v s ∗ ∗ g ree n v 2 65K** = 약 3배 저렴
유사 제품 비교
제품 GPU RAM 가격 NVIDIA DGX H100 8× H100 80GB 640GB ~$300K+ NVIDIA DGX B200 8× B200 192GB 1,536GB 더 비쌈 tinybox green v2 4× RTX PRO 6000 384GB $65K tinybox red v2 4× AMD 9070XT 64GB $12K DIY 4× RTX 4090 4× RTX 4090 96GB $10K15K
→ tinybox의 차별점: 턴키 + 엔터프라이즈 GPU + 대용량 GPU RAM
tiny corp 비전
"Petaflop 상용화 + 모두를 위한 AI"
→ 클라우드 의존하지 않고 누구나
강력한 AI 워크스테이션을 소유하는 미래
채용·투자 경로
tinygrad에 PR (GitHub 기여)
↓
tiny corp 채용 또는 투자 참여의 주요 경로
→ 오픈소스 기여 자체가 입사 원서
평가
장점
클라우드 의존 없는 로컬 AI 인프라
가격 대비 성능 우수 (특히 GPU RAM)
턴키 시스템 (조립·세팅 불필요)
AMD GPU 옵션 (CUDA 락인 회피)
tinygrad 오픈소스 생태계
한계
tinygrad 알파 단계 (안정성 PyTorch 대비 낮음)
커스터마이징 불가
결제·배송 옵션 제한적
exabox는 일반 사용자 사정거리 밖
소음 65dB(green) — 사무실 환경 부적합 가능
누구에게 적합한가?
적합 부적합 로컬 LLM 추론·학습 (대규모) 가벼운 개인 사용 (RTX 4090 충분) 데이터 외부 유출 불가 환경 클라우드로 충분한 워크로드 자율주행·로봇 등 엣지 AI 학습 단순 추론만 (전용 추론 칩이 더 적합) AMD GPU + ROCm 활용 검증된 NVIDIA + CUDA만 신뢰 연구실·스타트업 대형 클라우드 계약 보유 기업
관련 항목