1-bit LLM & Bonsai

개요

PrismML의 Bonsai가 1비트 가중치 LLM의 상용 수준 도달을 입증. 8B 파라미터를 1.15GB에 담아 iPhone에서 초당 130토큰, RTX 3090에서 190토큰/초 달성. 풀정밀도 대비 14배 작고, 8배 빠르고, 에너지 1/5. 기존 사후 양자화(INT4/INT8)와 달리 처음부터 1비트 목적함수로 학습하는 근본적으로 다른 접근. 에지 AI 판도를 바꿀 가능성.

개발: PrismML (Caltech 연구 기반)
모델: Bonsai 8B
크기: 1.15GB (FP16 대비 14×)
실제 비트: 1.125 bpw (128개 1비트 + 1개 FP16 스케일)
출처 영감: 2026-04 Show HN

”1비트”의 기술적 정체

순수 1비트가 아닌 1.125비트

구조:
  128개의 1비트 가중치 (0 또는 1)
  + 1개의 FP16 스케일 팩터 (16비트)
  = 128비트 + 16비트 = 144비트 / 128파라미터
  = 파라미터당 약 1.125비트

사후 양자화 vs 네이티브 1비트

항목	사후 양자화 (INT4/INT8)	네이티브 1비트 (Bonsai)
시점	학습 후 압축	처음부터 1비트 목적함수로 학습
정보 손실	필연적, 크기↓ 품질↓	모델이 1비트에 최적화된 구조
기반	FP16/FP32 모델 후처리	Microsoft BitNet 계열
접근법	압축 기술	아키텍처 혁신

→ 핵심: Bonsai는 “압축”이 아니라 “1비트용으로 태어난 모델”

공식 스펙

항목	값
파라미터	8B
모델 크기	1.15GB ⭐
비트	~1.125 bpw
속도 (M4 Pro)	132 tok/s
속도 (iPhone 17 Pro Max)	130 tok/s
속도 (RTX 3090)	~190 tok/s
VRAM (RTX 3090)	~4GB
에너지	풀정밀도 대비 1/5
크기	풀정밀도 대비 1/14
속도	풀정밀도 대비 8×

벤치마크 결과

공식 평가 (6개 벤치마크 평균)

IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux
동급 8B 양자화 모델과 경쟁력 있는 성능
“인텔리전스 밀도” (크기 대비 정확도): 풀정밀도 8B 대비 10× 효율

HN 실전 테스트 결과

SQL 디버깅 에이전트

모델	정답 (25문제)	시간
Bonsai 8B	8/25	200초 ⭐
Qwen3.5-4B	7/25	976초
Nanbeige4.1-3B	9/25	2000초+
Granite 7B (INT4)	4/25	199초

→ 속도 vs 정확도 균형에서 의미 있는 위치

코드 생성 (Cursor 연결)

✅ 몬테카를로 시뮬레이션 핵심 로직: 정확
❌ UI 빌드: 실패 (수동 편집 필요)
❌ SVG 이미지: 새인지 자전거인지 구분 불가
❌ 해리포터 지식: "시리우스 블랙이 제임스 포터의 아버지" 환각

→ 1비트 모델의 약점: 사실적 지식 저장·검색, 환각 심각

에지 디바이스 실측

GPU (RTX 3090)

700토큰 입력:  ~190 tok/s
6400토큰 입력: ~135 tok/s
VRAM: 4GB 안정

CPU (2018년 노트북)

최초: 0.6 tok/s (AVX2 커널 미구현)
  ↓ AVX2 지원 직접 추가
이후: ~12 tok/s

→ 커널 최적화 미성숙 → 잠재력은 큼
→ 6년 된 노트북에서도 사용 가능

모바일

M4 Pro: 132 tok/s (공식)
iPhone 17 Pro Max: 130 tok/s (공식)

→ 스마트폰에서 실시간 대화형 에이전트 현실화

스케일링 예측

단순 비례:
  8B  → 1.15GB   (16GB RAM 충분)
  27B → ~3.9GB   (32GB RAM 충분)
  100B → ~14.4GB (64GB RAM으로 가능!)

→ 64GB RAM Mac에서 100B급 모델 구동 가능?

⚠️ 핵심 질문:
  크기 스케일링은 선형이지만
  "정확도가 유지되는가?"가 관건

  특히 다단계 추론(multi-step reasoning)에서
  1비트 모델의 성능은 미검증

왜 1비트가 중요한가?

하드웨어 관성의 타파

현재:
  GPU가 부동소수점 연산에 최적화
  → FP16/FP32가 관성적으로 사용됨
  → 이론적 필연이 아닌 하드웨어적 관성

사실:
  신경망 가중치 ≈ 정규분포
  대부분 좁은 범위에 몰림
  → FP는 넓은 동적 범위용 → 비효율적
  → 1비트 + 스케일 팩터가 더 효율적일 수 있음

생물학적 영감

생물학적 뉴런:
  - 본질적으로 1비트 통신 (스파이크 있다/없다)
  - 아날로그 멤브레인 전위와 결합

SNN 연구자 사례:
  5000 Izhikevich 뉴런으로 사족보행 로봇 운동 제어
  → 같은 학습 예산에서 PPO(강화학습 표준)를 이김

→ 1비트 효율성이 LLM을 넘어 로보틱스·IoT까지 확장 가능

에너지 문제

2026 현재:
  데이터센터 전력 = AI 확산의 실질적 병목

1비트 모델:
  동급 성능, 에너지 1/5
  → 산업 전체 지속가능성 문제와 직결

경쟁 구도: 모델 압축 기술

기법	비트	방식	대표
FP16	16	풀 정밀도	표준
INT8	8	사후 양자화	GPTQ, AWQ
INT4	4	사후 양자화	GGUF Q4
INT2	2	사후 양자화	실험적
1비트 (네이티브) ⭐	1.125	학습 시 1비트	BitNet, Bonsai

→ 흐름: 모델 키우기 → 모델 압축 경쟁 → 비트당 지능 싸움

활용 시나리오

시나리오	적합성
모바일/엣지 실시간 에이전트	✅ 핵심 강점 (130 tok/s on iPhone)
IoT 디바이스	✅ 1.15GB + 저전력
로보틱스 (실시간 제어)	✅ 초저지연
임베디드 번역·분류	✅
코드 자동완성	△ (핵심 로직 OK, 복잡 UI는 ❌)
지식 기반 Q&A	❌ (환각 심각)
다단계 추론	❌ (미검증)
클라우드 대규모 추론	△ (비용 절감, 정확도 트레이드오프)

한계 & 주의

1. 환각(hallucination) 심각
   - 사실적 지식 저장·검색 취약
   - 풀정밀도보다 악화 가능성 높음

2. 다단계 추론 미검증
   - 벤치마크가 분류·검색·단순 코딩 위주
   - 복잡한 추론 태스크 성능 불명

3. 커널 최적화 초기
   - AVX2 미구현으로 CPU 성능 저조
   - 하드웨어별 최적화 필요

4. "상업적 viable" 범위 모호
   - 추론 비용 절감인가?
   - 파인튜닝 기반 모델인가?
   - 정의에 따라 평가 완전히 달라짐

의의: 패러다임 전환

이전 경쟁:
  "파라미터를 몇 개까지 늘릴 수 있는가?"
  GPT-4 (1.7T?) → GPT-5 → 더 큰 모델

새 경쟁:
  "비트당 얼마나 많은 지능을 담을 수 있는가?"
  8B × 16bit → 8B × 4bit → 8B × 1bit

방향:
  모델 키우기 → 모델 압축
  파라미터 수 → 비트당 지능
  데이터센터 → 에지·모바일
  클라우드 의존 → 로컬 자율

→ 관련:

Model Quantization — 기존 양자화 기법 비교
OmniCoder-9B — 소형 모델 + 행동 학습
apfel & Apple FoundationModels — 모바일 LLM
tinygrad & tinybox — 로컬 AI 하드웨어
Claude Code 로컬 모델 (Ollama) — 로컬 모델 활용

다른 노트와의 연결

노트	연결
Model Quantization	양자화 기법 비교 (INT4/INT8 vs 1비트)
Large Language Models (LLMs)	LLM 트렌드
OmniCoder-9B	소형 모델의 가치
GPU	GPU vs 1비트 커널
CUDA vs ROCm	하드웨어 최적화
tinygrad & tinybox	에지 AI 하드웨어
apfel & Apple FoundationModels	모바일 LLM
모바일 SoC 칩셋	NPU + 1비트 가속 가능성
NVIDIA RTX 60 시리즈 유출 & 50 Super 취소	GPU 비용 vs 1비트 대안
코드베이스 드래그 (Codebase Drag)	“근본이 중요”

메타 메시지

오늘 vault의 일관된 흐름:

"더 크게"가 아니라 "더 똑똑하게"

Rob Pike: 데이터 > 알고리듬
Hashline: 하니스 > 모델
OmniCoder: 학습 데이터 > 모델 크기
코드베이스 드래그: 코드 품질 > 사람 수
1비트 LLM: 비트당 지능 > 파라미터 수 ⭐

→ 모두 "효율·본질"이 "규모·표면"보다 중요

Bigstones

Explorer