DeepSeek-V4

개요

DeepSeek-V4는 DeepSeek가 공개한 차세대 프론티어 모델로, 단순 성능 향상보다 사전학습 아키텍처 혁신과 추론 효율 개선이 강하게 드러나는 모델입니다.

총 규모: 1.6T
Sparse Attention 도입
mHC (Manifold-Constrained Hyper-Connections) 적용
Muon 옵티마이저 채택
MLA 제거, Multi-Query Attention 전환
사전학습 단계부터 롱컨텍스트 통합

한 줄 요약

“DeepSeek-V4는 더 큰 모델이라기보다, 긴 컨텍스트와 추론 효율을 처음부터 사전학습 구조 안에 녹여낸 중국 프론티어 랩의 설계 전환점이다.”

핵심 아키텍처 변화

1. Sparse Attention

이전처럼 모든 토큰을 전부 참조하지 않고, 의미 있는 일부 토큰만 선택적으로 참조하는 방식입니다.

구성:

슬라이딩 윈도우 어텐션
100분의 1 압축 토큰에 대한 풀 어텐션
4분의 1 압축 + Lightning Indexer 기반 top-k 선택

즉, 긴 문맥에서 계산량을 줄이면서도 핵심 토큰 참조 능력을 유지하려는 구조입니다.

2. mHC

잔차 연결을 확장한 Hyper-Connections를 더 안정적으로 쓰기 위한 구조입니다.

핵심은:

정보 흐름 통로를 넓히고
학습 안정성을 개선하며
매우 큰 모델에서 깊은 네트워크를 더 잘 학습시키는 것

3. Muon 옵티마이저

Adam 계열 이후의 대안으로 자주 언급되는 학습 최적화기입니다.

이 모델에서는:

학습 속도 개선
데이터 효율 개선

을 위한 핵심 요소로 제시됩니다.

4. MLA 제거

DeepSeek의 상징이던 MLA를 버리고 단순한 Multi-Query Attention으로 전환했습니다.

즉, 구조적으로 더 복잡한 독자 메커니즘보다, 효율과 안정성 쪽으로 무게중심을 옮긴 셈입니다.

장점

롱컨텍스트 비용 절감

V3보다 훨씬 큰 모델이지만
토큰 연산 컴퓨트는 약 27% 수준
KV 캐시 메모리는 약 10% 수준

즉, 더 큰 모델인데도 긴 컨텍스트에서 실제 비용은 많이 줄었습니다.

사전학습 단계부터 롱컨텍스트 통합

후처리로 컨텍스트를 늘리는 게 아니라:

초기 1T 토큰은 4K~16K
이후 30T+ 토큰은 64K 이상

로 학습했습니다.

이건 롱컨텍스트를 “나중에 붙이는 기능”이 아니라 기본 성질로 만든다는 뜻입니다.

인프라 최적화

MoE 통신/연산 오버랩
전력 스로틀링 직전까지 밀어붙인 메가커널
TileLang 기여
batch invariance 커널 최적화
전문가 가중치 MXFP4 압축

즉, 논문은 알고리즘뿐 아니라 실제 대규모 학습 인프라 전투 기록에 가깝습니다.

한계

학습 불안정성

논문은 학습이 매끄럽지 않았음을 숨기지 않습니다.

MoE 게이팅 수정
클램핑
과거 시점 가중치로 라우팅하는 Anticipatory Routing

같은 장치가 들어갔다는 점은, 구조가 강력한 만큼 재현 난이도도 높다는 뜻입니다.

재현 난이도

Sparse Attention을 사전학습 단계에서 안정적으로 돌리는 것은 매우 어렵습니다.

즉, DeepSeek가 성공했다고 해서 다른 팀이 바로 따라올 수 있는 성격의 기법은 아닙니다.

포스트트레이닝의 여지

사전학습의 혁신 폭에 비해, 포스트트레이닝은 아직 개선 여지가 크다는 평가가 나옵니다.

즉, V4는 “완성형 제품”보다 강력한 베이스 모델의 설계 실험에 더 가깝습니다.

업계 관점에서의 의미

중국 프론티어 랩 부상

DeepSeek, Kimi, GLM, Hunyuan, MiMo 등 중국 프론티어 팀들이 동시에 전면에 등장하고 있습니다.

이 모델은 그중에서도:

공개성
아키텍처 실험성
사전학습 강도

측면에서 가장 상징적인 사례 중 하나입니다.

경쟁 축 이동

이 모델이 보여주는 건 더 큰 모델이 아니라:

더 긴 컨텍스트
더 싼 추론
더 효율적인 메모리 구조
사전학습 단계 통합 설계

즉, 모델 경쟁의 축이 파라미터 수에서 효율 아키텍처로 이동하고 있다는 신호입니다.

의미

DeepSeek-V4는 단순히 한 세대 더 강한 모델이 아니라, 사전학습 아키텍처를 어디까지 공격적으로 재설계할 수 있는가를 보여주는 기록에 가깝습니다.

특히 중요한 건:

Sparse Attention을 후처리가 아니라 사전학습 단계에 넣었다는 점
긴 컨텍스트를 비용 문제와 함께 풀었다는 점
학습 불안정성과 시행착오를 비교적 솔직하게 공개했다는 점

즉, 성능표보다 더 중요한 것은 프론티어 모델 개발의 실제 난제와 돌파 방식이 드러났다는 점입니다.

Bigstones

Explorer