개요
PrismML의 Bonsai가 1비트 가중치 LLM의 상용 수준 도달을 입증. 8B 파라미터를 1.15GB에 담아 iPhone에서 초당 130토큰, RTX 3090에서 190토큰/초 달성. 풀정밀도 대비 14배 작고, 8배 빠르고, 에너지 1/5. 기존 사후 양자화(INT4/INT8)와 달리 처음부터 1비트 목적함수로 학습하는 근본적으로 다른 접근. 에지 AI 판도를 바꿀 가능성.
- 개발: PrismML (Caltech 연구 기반)
- 모델: Bonsai 8B
- 크기: 1.15GB (FP16 대비 14×)
- 실제 비트: 1.125 bpw (128개 1비트 + 1개 FP16 스케일)
- 출처 영감: 2026-04 Show HN
”1비트”의 기술적 정체
순수 1비트가 아닌 1.125비트
구조:
128개의 1비트 가중치 (0 또는 1)
+ 1개의 FP16 스케일 팩터 (16비트)
= 128비트 + 16비트 = 144비트 / 128파라미터
= 파라미터당 약 1.125비트
사후 양자화 vs 네이티브 1비트
| 항목 | 사후 양자화 (INT4/INT8) | 네이티브 1비트 (Bonsai) |
|---|---|---|
| 시점 | 학습 후 압축 | 처음부터 1비트 목적함수로 학습 |
| 정보 손실 | 필연적, 크기↓ 품질↓ | 모델이 1비트에 최적화된 구조 |
| 기반 | FP16/FP32 모델 후처리 | Microsoft BitNet 계열 |
| 접근법 | 압축 기술 | 아키텍처 혁신 |
→ 핵심: Bonsai는 “압축”이 아니라 “1비트용으로 태어난 모델”
공식 스펙
| 항목 | 값 |
|---|---|
| 파라미터 | 8B |
| 모델 크기 | 1.15GB ⭐ |
| 비트 | ~1.125 bpw |
| 속도 (M4 Pro) | 132 tok/s |
| 속도 (iPhone 17 Pro Max) | 130 tok/s |
| 속도 (RTX 3090) | ~190 tok/s |
| VRAM (RTX 3090) | ~4GB |
| 에너지 | 풀정밀도 대비 1/5 |
| 크기 | 풀정밀도 대비 1/14 |
| 속도 | 풀정밀도 대비 8× |
벤치마크 결과
공식 평가 (6개 벤치마크 평균)
- IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux
- 동급 8B 양자화 모델과 경쟁력 있는 성능
- “인텔리전스 밀도” (크기 대비 정확도): 풀정밀도 8B 대비 10× 효율
HN 실전 테스트 결과
SQL 디버깅 에이전트
| 모델 | 정답 (25문제) | 시간 |
|---|---|---|
| Bonsai 8B | 8/25 | 200초 ⭐ |
| Qwen3.5-4B | 7/25 | 976초 |
| Nanbeige4.1-3B | 9/25 | 2000초+ |
| Granite 7B (INT4) | 4/25 | 199초 |
→ 속도 vs 정확도 균형에서 의미 있는 위치
코드 생성 (Cursor 연결)
✅ 몬테카를로 시뮬레이션 핵심 로직: 정확
❌ UI 빌드: 실패 (수동 편집 필요)
❌ SVG 이미지: 새인지 자전거인지 구분 불가
❌ 해리포터 지식: "시리우스 블랙이 제임스 포터의 아버지" 환각
→ 1비트 모델의 약점: 사실적 지식 저장·검색, 환각 심각
에지 디바이스 실측
GPU (RTX 3090)
700토큰 입력: ~190 tok/s
6400토큰 입력: ~135 tok/s
VRAM: 4GB 안정
CPU (2018년 노트북)
최초: 0.6 tok/s (AVX2 커널 미구현)
↓ AVX2 지원 직접 추가
이후: ~12 tok/s
→ 커널 최적화 미성숙 → 잠재력은 큼
→ 6년 된 노트북에서도 사용 가능
모바일
M4 Pro: 132 tok/s (공식)
iPhone 17 Pro Max: 130 tok/s (공식)
→ 스마트폰에서 실시간 대화형 에이전트 현실화
스케일링 예측
단순 비례:
8B → 1.15GB (16GB RAM 충분)
27B → ~3.9GB (32GB RAM 충분)
100B → ~14.4GB (64GB RAM으로 가능!)
→ 64GB RAM Mac에서 100B급 모델 구동 가능?
⚠️ 핵심 질문:
크기 스케일링은 선형이지만
"정확도가 유지되는가?"가 관건
특히 다단계 추론(multi-step reasoning)에서
1비트 모델의 성능은 미검증
왜 1비트가 중요한가?
하드웨어 관성의 타파
현재:
GPU가 부동소수점 연산에 최적화
→ FP16/FP32가 관성적으로 사용됨
→ 이론적 필연이 아닌 하드웨어적 관성
사실:
신경망 가중치 ≈ 정규분포
대부분 좁은 범위에 몰림
→ FP는 넓은 동적 범위용 → 비효율적
→ 1비트 + 스케일 팩터가 더 효율적일 수 있음
생물학적 영감
생물학적 뉴런:
- 본질적으로 1비트 통신 (스파이크 있다/없다)
- 아날로그 멤브레인 전위와 결합
SNN 연구자 사례:
5000 Izhikevich 뉴런으로 사족보행 로봇 운동 제어
→ 같은 학습 예산에서 PPO(강화학습 표준)를 이김
→ 1비트 효율성이 LLM을 넘어 로보틱스·IoT까지 확장 가능
에너지 문제
2026 현재:
데이터센터 전력 = AI 확산의 실질적 병목
1비트 모델:
동급 성능, 에너지 1/5
→ 산업 전체 지속가능성 문제와 직결
경쟁 구도: 모델 압축 기술
| 기법 | 비트 | 방식 | 대표 |
|---|---|---|---|
| FP16 | 16 | 풀 정밀도 | 표준 |
| INT8 | 8 | 사후 양자화 | GPTQ, AWQ |
| INT4 | 4 | 사후 양자화 | GGUF Q4 |
| INT2 | 2 | 사후 양자화 | 실험적 |
| 1비트 (네이티브) ⭐ | 1.125 | 학습 시 1비트 | BitNet, Bonsai |
→ 흐름: 모델 키우기 → 모델 압축 경쟁 → 비트당 지능 싸움
활용 시나리오
| 시나리오 | 적합성 |
|---|---|
| 모바일/엣지 실시간 에이전트 | ✅ 핵심 강점 (130 tok/s on iPhone) |
| IoT 디바이스 | ✅ 1.15GB + 저전력 |
| 로보틱스 (실시간 제어) | ✅ 초저지연 |
| 임베디드 번역·분류 | ✅ |
| 코드 자동완성 | △ (핵심 로직 OK, 복잡 UI는 ❌) |
| 지식 기반 Q&A | ❌ (환각 심각) |
| 다단계 추론 | ❌ (미검증) |
| 클라우드 대규모 추론 | △ (비용 절감, 정확도 트레이드오프) |
한계 & 주의
1. 환각(hallucination) 심각
- 사실적 지식 저장·검색 취약
- 풀정밀도보다 악화 가능성 높음
2. 다단계 추론 미검증
- 벤치마크가 분류·검색·단순 코딩 위주
- 복잡한 추론 태스크 성능 불명
3. 커널 최적화 초기
- AVX2 미구현으로 CPU 성능 저조
- 하드웨어별 최적화 필요
4. "상업적 viable" 범위 모호
- 추론 비용 절감인가?
- 파인튜닝 기반 모델인가?
- 정의에 따라 평가 완전히 달라짐
의의: 패러다임 전환
이전 경쟁:
"파라미터를 몇 개까지 늘릴 수 있는가?"
GPT-4 (1.7T?) → GPT-5 → 더 큰 모델
새 경쟁:
"비트당 얼마나 많은 지능을 담을 수 있는가?"
8B × 16bit → 8B × 4bit → 8B × 1bit
방향:
모델 키우기 → 모델 압축
파라미터 수 → 비트당 지능
데이터센터 → 에지·모바일
클라우드 의존 → 로컬 자율
→ 관련:
- Model Quantization — 기존 양자화 기법 비교
- OmniCoder-9B — 소형 모델 + 행동 학습
- apfel & Apple FoundationModels — 모바일 LLM
- tinygrad & tinybox — 로컬 AI 하드웨어
- Claude Code 로컬 모델 (Ollama) — 로컬 모델 활용
다른 노트와의 연결
| 노트 | 연결 |
|---|---|
| Model Quantization | 양자화 기법 비교 (INT4/INT8 vs 1비트) |
| Large Language Models (LLMs) | LLM 트렌드 |
| OmniCoder-9B | 소형 모델의 가치 |
| GPU | GPU vs 1비트 커널 |
| CUDA vs ROCm | 하드웨어 최적화 |
| tinygrad & tinybox | 에지 AI 하드웨어 |
| apfel & Apple FoundationModels | 모바일 LLM |
| 모바일 SoC 칩셋 | NPU + 1비트 가속 가능성 |
| NVIDIA RTX 60 시리즈 유출 & 50 Super 취소 | GPU 비용 vs 1비트 대안 |
| 코드베이스 드래그 (Codebase Drag) | “근본이 중요” |
메타 메시지
오늘 vault의 일관된 흐름:
"더 크게"가 아니라 "더 똑똑하게"
Rob Pike: 데이터 > 알고리듬
Hashline: 하니스 > 모델
OmniCoder: 학습 데이터 > 모델 크기
코드베이스 드래그: 코드 품질 > 사람 수
1비트 LLM: 비트당 지능 > 파라미터 수 ⭐
→ 모두 "효율·본질"이 "규모·표면"보다 중요