MimikaStudio

개요

MimikaStudio는 macOS (Apple Silicon)용 로컬 퍼스트 음성 복제·TTS·문서 낭독·오디오북 제작 앱입니다. MLX 기반 Metal 가속을 활용해 맥에서 네이티브 성능으로 동작하며, 단순 데스크톱 앱을 넘어 Agentic Voice Cloning Server와 MCP 서버까지 함께 제공합니다.

GitHub: https://github.com/BoltzmannEntropy/MimikaStudio
개발: BoltzmannEntropy
플랫폼: macOS 13+ / Apple Silicon
라이선스: 소스코드 BSL-1.1, 바이너리 별도 배포 라이선스
최신 확인 기준: GitHub v2026.04.1 (2026-04-20 확인)

한 줄 요약

“맥에서 로컬로 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동까지 한 번에 묶은 통합 음성 AI 워크스테이션”

핵심 기능

1. 음성 복제

Qwen3-TTS 기반 음성 복제
3초 정도의 짧은 레퍼런스 음성으로 클론 가능
Chatterbox Multilingual 엔진 통합
업로드한 음성을 여러 클로닝 엔진에서 재사용하는 Shared Voice Library 제공

2. 텍스트 음성 변환 (TTS)

Kokoro TTS: 빠른 영어 TTS
Supertonic-2 ONNX: 다국어 TTS
스타일 지시문, 샘플링 파라미터, 시드 등 고급 생성 제어 지원

3. 문서 낭독

PDF, DOCX, EPUB, Markdown, TXT 읽기 지원
문장 단위 하이라이트와 동기화된 읽기 진행 제공
로컬 문서를 바로 음성화할 수 있어 문서 소비용 리더로도 사용 가능

4. 오디오북 생성

문서를 WAV / MP3 / M4B로 변환
챕터 단위 생성, 진행률 추적, 큐 관리 지원
음성 프리셋 재사용 가능
M4B 생성 시 챕터 마커 지원

5. 서버/자동화 기능

FastAPI 백엔드 기반
60+ REST API 엔드포인트
MCP 서버 내장: Codex, Claude Code 등 MCP 클라이언트와 연동
CLI / UI / API를 모두 제공해 로컬 자동화와 외부 연동에 적합
작업 큐로 TTS / 음성 복제 / 오디오북 파이프라인을 통합 오케스트레이션

지원 모델/엔진

엔진	역할	특징
Kokoro-82M	빠른 TTS	저지연 영어 음성 합성
Qwen3-TTS 0.6B / 1.7B	음성 복제	3초 샘플 기반 복제, 한국어 포함
Chatterbox Multilingual	다국어 음성 복제	23개 언어 지원
Supertonic-2	다국어 TTS	한국어 포함 5개 언어 ONNX 기반

참고:

GitHub README 기준으로 Qwen3-TTS는 한국어 포함 10개 언어를 지원
Qwen3 CustomVoice는 en, zh, ja, ko 4개 언어 지원
저장소에는 cosyvoice3 관련 프리제너레이트 디렉터리도 보이지만, README의 주력 지원 모델 표에서는 Kokoro / Qwen3 / Chatterbox / Supertonic 중심으로 안내함

아키텍처

Flutter 데스크톱 UI
        ↓
FastAPI 로컬 서버
        ↓
TTS / Voice Cloning 엔진
        ├─ Kokoro
        ├─ Qwen3-TTS
        ├─ Chatterbox
        └─ Supertonic
        ↓
Jobs Queue + Model Manager + MCP Server

Flutter 기반 데스크톱 UI
FastAPI 기반 Python 백엔드
모델 매니저 내장: 다운로드 상태 확인 및 온디맨드 다운로드
Multi-LLM 연동: Claude, OpenAI, Ollama, Claude Code CLI

코드베이스 규모

구분	규모
Python (백엔드, 스크립트, MCP)	약 8,500 LOC
Dart (Flutter UI)	약 10,100 LOC
전체	약 18,600 LOC

즉, 단순 실험용 래퍼가 아니라 상당히 큰 데스크톱 제품형 오픈소스 코드베이스에 가깝습니다.

왜 흥미로운가

Apple Silicon 최적화
- MLX + Metal 기반이라 맥에서 로컬 음성 AI를 실용적인 속도로 돌리는 방향이 뚜렷함
기능 통합
- 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동을 한 앱에 묶음
에이전트 친화성
- MCP 서버와 API를 같이 제공해서 단순 GUI 앱이 아니라 자동화 가능한 음성 인프라로 쓸 수 있음
로컬 퍼스트
- 업로드형 SaaS 대신 온디바이스 처리 중심이라 프라이버시 민감한 문서/오디오 처리에 유리

한계 / 체크 포인트

현재 배포 바이너리는 macOS 전용
Windows/Linux는 코드 차원 호환만 안내되며, 공식 빌드는 추후 예정
소스 공개이지만 완전한 permissive 오픈소스 라이선스는 아님
- BSL-1.1 기반이라 사용 전 상업적 조건 확인 필요
일부 오디오북 기능은 README 기준으로 Kokoro 음성 중심 설명이 붙어 있음

Bigstones

Explorer