개요

MimikaStudiomacOS (Apple Silicon)용 로컬 퍼스트 음성 복제·TTS·문서 낭독·오디오북 제작 앱입니다. MLX 기반 Metal 가속을 활용해 맥에서 네이티브 성능으로 동작하며, 단순 데스크톱 앱을 넘어 Agentic Voice Cloning ServerMCP 서버까지 함께 제공합니다.

  • GitHub: https://github.com/BoltzmannEntropy/MimikaStudio
  • 개발: BoltzmannEntropy
  • 플랫폼: macOS 13+ / Apple Silicon
  • 라이선스: 소스코드 BSL-1.1, 바이너리 별도 배포 라이선스
  • 최신 확인 기준: GitHub v2026.04.1 (2026-04-20 확인)

한 줄 요약

“맥에서 로컬로 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동까지 한 번에 묶은 통합 음성 AI 워크스테이션”


핵심 기능

1. 음성 복제

  • Qwen3-TTS 기반 음성 복제
  • 3초 정도의 짧은 레퍼런스 음성으로 클론 가능
  • Chatterbox Multilingual 엔진 통합
  • 업로드한 음성을 여러 클로닝 엔진에서 재사용하는 Shared Voice Library 제공

2. 텍스트 음성 변환 (TTS)

  • Kokoro TTS: 빠른 영어 TTS
  • Supertonic-2 ONNX: 다국어 TTS
  • 스타일 지시문, 샘플링 파라미터, 시드 등 고급 생성 제어 지원

3. 문서 낭독

  • PDF, DOCX, EPUB, Markdown, TXT 읽기 지원
  • 문장 단위 하이라이트와 동기화된 읽기 진행 제공
  • 로컬 문서를 바로 음성화할 수 있어 문서 소비용 리더로도 사용 가능

4. 오디오북 생성

  • 문서를 WAV / MP3 / M4B로 변환
  • 챕터 단위 생성, 진행률 추적, 큐 관리 지원
  • 음성 프리셋 재사용 가능
  • M4B 생성 시 챕터 마커 지원

5. 서버/자동화 기능

  • FastAPI 백엔드 기반
  • 60+ REST API 엔드포인트
  • MCP 서버 내장: Codex, Claude Code 등 MCP 클라이언트와 연동
  • CLI / UI / API를 모두 제공해 로컬 자동화와 외부 연동에 적합
  • 작업 큐로 TTS / 음성 복제 / 오디오북 파이프라인을 통합 오케스트레이션

지원 모델/엔진

엔진역할특징
Kokoro-82M빠른 TTS저지연 영어 음성 합성
Qwen3-TTS 0.6B / 1.7B음성 복제3초 샘플 기반 복제, 한국어 포함
Chatterbox Multilingual다국어 음성 복제23개 언어 지원
Supertonic-2다국어 TTS한국어 포함 5개 언어 ONNX 기반

참고:

  • GitHub README 기준으로 Qwen3-TTS는 한국어 포함 10개 언어를 지원
  • Qwen3 CustomVoiceen, zh, ja, ko 4개 언어 지원
  • 저장소에는 cosyvoice3 관련 프리제너레이트 디렉터리도 보이지만, README의 주력 지원 모델 표에서는 Kokoro / Qwen3 / Chatterbox / Supertonic 중심으로 안내함

아키텍처

Flutter 데스크톱 UI

FastAPI 로컬 서버

TTS / Voice Cloning 엔진
        ├─ Kokoro
        ├─ Qwen3-TTS
        ├─ Chatterbox
        └─ Supertonic

Jobs Queue + Model Manager + MCP Server
  • Flutter 기반 데스크톱 UI
  • FastAPI 기반 Python 백엔드
  • 모델 매니저 내장: 다운로드 상태 확인 및 온디맨드 다운로드
  • Multi-LLM 연동: Claude, OpenAI, Ollama, Claude Code CLI

코드베이스 규모

구분규모
Python (백엔드, 스크립트, MCP)8,500 LOC
Dart (Flutter UI)10,100 LOC
전체18,600 LOC

즉, 단순 실험용 래퍼가 아니라 상당히 큰 데스크톱 제품형 오픈소스 코드베이스에 가깝습니다.


왜 흥미로운가

  1. Apple Silicon 최적화
    • MLX + Metal 기반이라 맥에서 로컬 음성 AI를 실용적인 속도로 돌리는 방향이 뚜렷함
  2. 기능 통합
    • 음성 복제, TTS, 문서 낭독, 오디오북 생성, MCP 연동을 한 앱에 묶음
  3. 에이전트 친화성
    • MCP 서버와 API를 같이 제공해서 단순 GUI 앱이 아니라 자동화 가능한 음성 인프라로 쓸 수 있음
  4. 로컬 퍼스트
    • 업로드형 SaaS 대신 온디바이스 처리 중심이라 프라이버시 민감한 문서/오디오 처리에 유리

한계 / 체크 포인트

  • 현재 배포 바이너리는 macOS 전용
  • Windows/Linux는 코드 차원 호환만 안내되며, 공식 빌드는 추후 예정
  • 소스 공개이지만 완전한 permissive 오픈소스 라이선스는 아님
    • BSL-1.1 기반이라 사용 전 상업적 조건 확인 필요
  • 일부 오디오북 기능은 README 기준으로 Kokoro 음성 중심 설명이 붙어 있음

관련 항목