개요
MimikaStudio는 macOS (Apple Silicon)용 로컬 퍼스트 음성 복제·TTS·문서 낭독·오디오북 제작 앱입니다. MLX 기반 Metal 가속을 활용해 맥에서 네이티브 성능으로 동작하며, 단순 데스크톱 앱을 넘어 Agentic Voice Cloning Server와 MCP 서버까지 함께 제공합니다.
- GitHub: https://github.com/BoltzmannEntropy/MimikaStudio
- 개발: BoltzmannEntropy
- 플랫폼: macOS 13+ / Apple Silicon
- 라이선스: 소스코드 BSL-1.1, 바이너리 별도 배포 라이선스
- 최신 확인 기준: GitHub
v2026.04.1(2026-04-20 확인)
한 줄 요약
“맥에서 로컬로 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동까지 한 번에 묶은 통합 음성 AI 워크스테이션”
핵심 기능
1. 음성 복제
- Qwen3-TTS 기반 음성 복제
- 3초 정도의 짧은 레퍼런스 음성으로 클론 가능
- Chatterbox Multilingual 엔진 통합
- 업로드한 음성을 여러 클로닝 엔진에서 재사용하는 Shared Voice Library 제공
2. 텍스트 음성 변환 (TTS)
- Kokoro TTS: 빠른 영어 TTS
- Supertonic-2 ONNX: 다국어 TTS
- 스타일 지시문, 샘플링 파라미터, 시드 등 고급 생성 제어 지원
3. 문서 낭독
- PDF, DOCX, EPUB, Markdown, TXT 읽기 지원
- 문장 단위 하이라이트와 동기화된 읽기 진행 제공
- 로컬 문서를 바로 음성화할 수 있어 문서 소비용 리더로도 사용 가능
4. 오디오북 생성
- 문서를 WAV / MP3 / M4B로 변환
- 챕터 단위 생성, 진행률 추적, 큐 관리 지원
- 음성 프리셋 재사용 가능
- M4B 생성 시 챕터 마커 지원
5. 서버/자동화 기능
- FastAPI 백엔드 기반
- 60+ REST API 엔드포인트
- MCP 서버 내장: Codex, Claude Code 등 MCP 클라이언트와 연동
- CLI / UI / API를 모두 제공해 로컬 자동화와 외부 연동에 적합
- 작업 큐로 TTS / 음성 복제 / 오디오북 파이프라인을 통합 오케스트레이션
지원 모델/엔진
| 엔진 | 역할 | 특징 |
|---|---|---|
| Kokoro-82M | 빠른 TTS | 저지연 영어 음성 합성 |
| Qwen3-TTS 0.6B / 1.7B | 음성 복제 | 3초 샘플 기반 복제, 한국어 포함 |
| Chatterbox Multilingual | 다국어 음성 복제 | 23개 언어 지원 |
| Supertonic-2 | 다국어 TTS | 한국어 포함 5개 언어 ONNX 기반 |
참고:
- GitHub README 기준으로 Qwen3-TTS는 한국어 포함 10개 언어를 지원
- Qwen3 CustomVoice는
en,zh,ja,ko4개 언어 지원 - 저장소에는
cosyvoice3관련 프리제너레이트 디렉터리도 보이지만, README의 주력 지원 모델 표에서는 Kokoro / Qwen3 / Chatterbox / Supertonic 중심으로 안내함
아키텍처
Flutter 데스크톱 UI
↓
FastAPI 로컬 서버
↓
TTS / Voice Cloning 엔진
├─ Kokoro
├─ Qwen3-TTS
├─ Chatterbox
└─ Supertonic
↓
Jobs Queue + Model Manager + MCP Server- Flutter 기반 데스크톱 UI
- FastAPI 기반 Python 백엔드
- 모델 매니저 내장: 다운로드 상태 확인 및 온디맨드 다운로드
- Multi-LLM 연동: Claude, OpenAI, Ollama, Claude Code CLI
코드베이스 규모
| 구분 | 규모 |
|---|---|
| Python (백엔드, 스크립트, MCP) | 약 8,500 LOC |
| Dart (Flutter UI) | 약 10,100 LOC |
| 전체 | 약 18,600 LOC |
즉, 단순 실험용 래퍼가 아니라 상당히 큰 데스크톱 제품형 오픈소스 코드베이스에 가깝습니다.
왜 흥미로운가
- Apple Silicon 최적화
- MLX + Metal 기반이라 맥에서 로컬 음성 AI를 실용적인 속도로 돌리는 방향이 뚜렷함
- 기능 통합
- 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동을 한 앱에 묶음
- 에이전트 친화성
- MCP 서버와 API를 같이 제공해서 단순 GUI 앱이 아니라 자동화 가능한 음성 인프라로 쓸 수 있음
- 로컬 퍼스트
- 업로드형 SaaS 대신 온디바이스 처리 중심이라 프라이버시 민감한 문서/오디오 처리에 유리
한계 / 체크 포인트
- 현재 배포 바이너리는 macOS 전용
- Windows/Linux는 코드 차원 호환만 안내되며, 공식 빌드는 추후 예정
- 소스 공개이지만 완전한 permissive 오픈소스 라이선스는 아님
- BSL-1.1 기반이라 사용 전 상업적 조건 확인 필요
- 일부 오디오북 기능은 README 기준으로 Kokoro 음성 중심 설명이 붙어 있음