개요

PrismML의 Bonsai1비트 가중치 LLM의 상용 수준 도달을 입증. 8B 파라미터를 1.15GB에 담아 iPhone에서 초당 130토큰, RTX 3090에서 190토큰/초 달성. 풀정밀도 대비 14배 작고, 8배 빠르고, 에너지 1/5. 기존 사후 양자화(INT4/INT8)와 달리 처음부터 1비트 목적함수로 학습하는 근본적으로 다른 접근. 에지 AI 판도를 바꿀 가능성.

  • 개발: PrismML (Caltech 연구 기반)
  • 모델: Bonsai 8B
  • 크기: 1.15GB (FP16 대비 14×)
  • 실제 비트: 1.125 bpw (128개 1비트 + 1개 FP16 스케일)
  • 출처 영감: 2026-04 Show HN

”1비트”의 기술적 정체

순수 1비트가 아닌 1.125비트

구조:
  128개의 1비트 가중치 (0 또는 1)
  + 1개의 FP16 스케일 팩터 (16비트)
  = 128비트 + 16비트 = 144비트 / 128파라미터
  = 파라미터당 약 1.125비트

사후 양자화 vs 네이티브 1비트

항목사후 양자화 (INT4/INT8)네이티브 1비트 (Bonsai)
시점학습 후 압축처음부터 1비트 목적함수로 학습
정보 손실필연적, 크기↓ 품질↓모델이 1비트에 최적화된 구조
기반FP16/FP32 모델 후처리Microsoft BitNet 계열
접근법압축 기술아키텍처 혁신

핵심: Bonsai는 “압축”이 아니라 “1비트용으로 태어난 모델”


공식 스펙

항목
파라미터8B
모델 크기1.15GB
비트~1.125 bpw
속도 (M4 Pro)132 tok/s
속도 (iPhone 17 Pro Max)130 tok/s
속도 (RTX 3090)~190 tok/s
VRAM (RTX 3090)~4GB
에너지풀정밀도 대비 1/5
크기풀정밀도 대비 1/14
속도풀정밀도 대비

벤치마크 결과

공식 평가 (6개 벤치마크 평균)

  • IFEval, GSM8K, HumanEval+, BFCL, MuSR, MMLU-Redux
  • 동급 8B 양자화 모델과 경쟁력 있는 성능
  • “인텔리전스 밀도” (크기 대비 정확도): 풀정밀도 8B 대비 10× 효율

HN 실전 테스트 결과

SQL 디버깅 에이전트

모델정답 (25문제)시간
Bonsai 8B8/25200초
Qwen3.5-4B7/25976초
Nanbeige4.1-3B9/252000초+
Granite 7B (INT4)4/25199초

속도 vs 정확도 균형에서 의미 있는 위치

코드 생성 (Cursor 연결)

✅ 몬테카를로 시뮬레이션 핵심 로직: 정확
❌ UI 빌드: 실패 (수동 편집 필요)
❌ SVG 이미지: 새인지 자전거인지 구분 불가
❌ 해리포터 지식: "시리우스 블랙이 제임스 포터의 아버지" 환각

1비트 모델의 약점: 사실적 지식 저장·검색, 환각 심각


에지 디바이스 실측

GPU (RTX 3090)

700토큰 입력:  ~190 tok/s
6400토큰 입력: ~135 tok/s
VRAM: 4GB 안정

CPU (2018년 노트북)

최초: 0.6 tok/s (AVX2 커널 미구현)
  ↓ AVX2 지원 직접 추가
이후: ~12 tok/s

→ 커널 최적화 미성숙 → 잠재력은 큼
→ 6년 된 노트북에서도 사용 가능

모바일

M4 Pro: 132 tok/s (공식)
iPhone 17 Pro Max: 130 tok/s (공식)

→ 스마트폰에서 실시간 대화형 에이전트 현실화

스케일링 예측

단순 비례:
  8B  → 1.15GB   (16GB RAM 충분)
  27B → ~3.9GB   (32GB RAM 충분)
  100B → ~14.4GB (64GB RAM으로 가능!)

→ 64GB RAM Mac에서 100B급 모델 구동 가능?

⚠️ 핵심 질문:
  크기 스케일링은 선형이지만
  "정확도가 유지되는가?"가 관건

  특히 다단계 추론(multi-step reasoning)에서
  1비트 모델의 성능은 미검증

왜 1비트가 중요한가?

하드웨어 관성의 타파

현재:
  GPU가 부동소수점 연산에 최적화
  → FP16/FP32가 관성적으로 사용됨
  → 이론적 필연이 아닌 하드웨어적 관성

사실:
  신경망 가중치 ≈ 정규분포
  대부분 좁은 범위에 몰림
  → FP는 넓은 동적 범위용 → 비효율적
  → 1비트 + 스케일 팩터가 더 효율적일 수 있음

생물학적 영감

생물학적 뉴런:
  - 본질적으로 1비트 통신 (스파이크 있다/없다)
  - 아날로그 멤브레인 전위와 결합

SNN 연구자 사례:
  5000 Izhikevich 뉴런으로 사족보행 로봇 운동 제어
  → 같은 학습 예산에서 PPO(강화학습 표준)를 이김

→ 1비트 효율성이 LLM을 넘어 로보틱스·IoT까지 확장 가능

에너지 문제

2026 현재:
  데이터센터 전력 = AI 확산의 실질적 병목

1비트 모델:
  동급 성능, 에너지 1/5
  → 산업 전체 지속가능성 문제와 직결

경쟁 구도: 모델 압축 기술

기법비트방식대표
FP1616풀 정밀도표준
INT88사후 양자화GPTQ, AWQ
INT44사후 양자화GGUF Q4
INT22사후 양자화실험적
1비트 (네이티브)1.125학습 시 1비트BitNet, Bonsai

→ 흐름: 모델 키우기 → 모델 압축 경쟁비트당 지능 싸움


활용 시나리오

시나리오적합성
모바일/엣지 실시간 에이전트✅ 핵심 강점 (130 tok/s on iPhone)
IoT 디바이스✅ 1.15GB + 저전력
로보틱스 (실시간 제어)✅ 초저지연
임베디드 번역·분류
코드 자동완성△ (핵심 로직 OK, 복잡 UI는 ❌)
지식 기반 Q&A❌ (환각 심각)
다단계 추론❌ (미검증)
클라우드 대규모 추론△ (비용 절감, 정확도 트레이드오프)

한계 & 주의

1. 환각(hallucination) 심각
   - 사실적 지식 저장·검색 취약
   - 풀정밀도보다 악화 가능성 높음

2. 다단계 추론 미검증
   - 벤치마크가 분류·검색·단순 코딩 위주
   - 복잡한 추론 태스크 성능 불명

3. 커널 최적화 초기
   - AVX2 미구현으로 CPU 성능 저조
   - 하드웨어별 최적화 필요

4. "상업적 viable" 범위 모호
   - 추론 비용 절감인가?
   - 파인튜닝 기반 모델인가?
   - 정의에 따라 평가 완전히 달라짐

의의: 패러다임 전환

이전 경쟁:
  "파라미터를 몇 개까지 늘릴 수 있는가?"
  GPT-4 (1.7T?) → GPT-5 → 더 큰 모델

새 경쟁:
  "비트당 얼마나 많은 지능을 담을 수 있는가?"
  8B × 16bit → 8B × 4bit → 8B × 1bit

방향:
  모델 키우기 → 모델 압축
  파라미터 수 → 비트당 지능
  데이터센터 → 에지·모바일
  클라우드 의존 → 로컬 자율

→ 관련:


다른 노트와의 연결

노트연결
Model Quantization양자화 기법 비교 (INT4/INT8 vs 1비트)
Large Language Models (LLMs)LLM 트렌드
OmniCoder-9B소형 모델의 가치
GPUGPU vs 1비트 커널
CUDA vs ROCm하드웨어 최적화
tinygrad & tinybox에지 AI 하드웨어
apfel & Apple FoundationModels모바일 LLM
모바일 SoC 칩셋NPU + 1비트 가속 가능성
NVIDIA RTX 60 시리즈 유출 & 50 Super 취소GPU 비용 vs 1비트 대안
코드베이스 드래그 (Codebase Drag)“근본이 중요”

메타 메시지

오늘 vault의 일관된 흐름:

"더 크게"가 아니라 "더 똑똑하게"

Rob Pike: 데이터 > 알고리듬
Hashline: 하니스 > 모델
OmniCoder: 학습 데이터 > 모델 크기
코드베이스 드래그: 코드 품질 > 사람 수
1비트 LLM: 비트당 지능 > 파라미터 수 ⭐

→ 모두 "효율·본질"이 "규모·표면"보다 중요

관련 항목