understudy는 사용자가 한 번 시연하면 의도·절차를 학습해 반복 수행하는 로컬 데스크톱 자동화 에이전트. 별도 워크플로 빌더 없이 직접 시연으로 학습. GUI·브라우저·쉘·파일시스템·메시징을 통합 제어. 단순 매크로가 아닌 의도 기반 학습. 학습 결과는 SKILL.md로 저장·재사용. 5단계 성장 구조 (관찰 → 모방 → 기억 → 최적화 → 자율).
기존 자동화 (매크로/RPA):
사용자가 "좌표 X, Y 클릭 → 텍스트 입력 → 버튼 클릭" 프로그래밍
→ 위치·크기 바뀌면 실패
→ 의도가 아닌 동작을 기록
understudy:
사용자가 실제로 한 번 수행 (시연)
→ 에이전트가 의도와 절차를 이해
→ 맥락에 맞게 반복 수행
→ 화면 레이아웃 변해도 적응
5단계 성장 구조
레이어
이름
상태
기능
Layer 1
관찰 (Observe)
✅ 구현
사용자 행동 관찰·녹화
Layer 2
모방 (Imitate)
✅ 구현
시연 재현·실행
Layer 3
기억 (Remember)
△ 부분
패턴 식별·SKILL 저장
Layer 4
최적화 (Optimize)
△ 부분
빠른 경로 탐색·압축
Layer 5
자율 (Autonomous)
❌ 장기 목표
스스로 판단·실행
→ Layer 1~2는 지금 사용 가능
/teach 명령 워크플로우
1. /teach 명령 실행
↓
2. 시연 녹화 시작
- 사용자가 직접 작업 수행
- GUI 동작·키 입력·마우스·파일 작업 모두 캡처
↓
3. 분석
- 의도 추출
- 절차 구조화
↓
4. 선택적 검증
- "이렇게 이해했는데 맞나요?" 확인
↓
5. 발행
- SKILL.md로 저장
- 재사용 가능
단순 매크로 vs 의도 기반
항목
매크로 (Automator 등)
understudy
기록
좌표·키 입력
의도·절차
적응
화면 바뀌면 실패
맥락 적응
학습
없음
반복 패턴 식별
최적화
없음
더 빠른 경로 자동 선택
결과물
스크립트
SKILL.md (사람이 읽기 가능)
암묵 학습 루프
사용자가 반복적으로 수행하는 패턴
↓ 보수적으로 식별
↓ 워크플로우 압축
↓ 충분히 확인되면
workspace skill로 승격
↓ 불확실한 패턴은
보류 → 안전성 유지
→ “충분히 확실할 때만 자동화” — 오작동 방지
통합 제어 영역
영역
설명
GUI
데스크탑 앱 제어 (클릭·입력·스크롤)
브라우저
웹 페이지 탐색·조작
쉘
터미널 명령 실행
파일시스템
파일·폴더 작업
메시징
8개 채널 통합 (아래 참고)
멀티채널 게이트웨이 (8개 내장)
채널
지원
Web
✅
Terminal
✅
Telegram
✅
Discord
✅
Slack
✅
WhatsApp
✅
Signal
✅
LINE
✅
iMessage
✅
→ 하나의 HTTP/WebSocket 게이트웨이로 모든 채널 연결
SKILL.md 예시 (추정)
# 주간 보고서 작성## 의도매주 월요일 아침에 Notion에서 지난주 데이터를 모아 보고서 작성## 절차1. Chrome에서 Notion "주간 데이터" 페이지 열기2. 테이블에서 지난주 행 복사3. "주간 보고서" 템플릿에 붙여넣기4. 날짜 자동 채우기5. Slack #team 채널에 링크 공유## 학습 이력- 2026-04-07: 첫 시연 녹화- 2026-04-14: 2회차 확인, skill 승격
유사 도구 비교
도구
방식
차별점
understudy ⭐
시연 학습
의도 기반, SKILL.md, 로컬
UiPath
RPA 워크플로 빌더
엔터프라이즈, 비주얼 설계
Automator (macOS)
매크로
좌표 기반, Apple 전용
Keyboard Maestro
매크로
강력하지만 수동 설정
Claude Computer Use
AI 비전
클라우드, API 의존
GPT-5.4 Computer Use
AI 비전
클라우드
Open Interpreter
LLM + 코드 실행
CLI 중심
→ understudy의 niche: “시연 한 번 → 학습 → 반복” (프로그래밍·설정 ❌)
플랫폼 로드맵
플랫폼
상태
macOS
✅ 현재 중심
Linux
개발 예정 (GUI 백엔드)
Windows
개발 예정 (GUI 백엔드)
활용 시나리오
시나리오
효과
반복 보고서 작성
시연 1회 → 매주 자동
데이터 입력
엑셀·웹 폼 반복 입력
이메일·메시지 처리
패턴화된 응답 자동화
파일 정리
반복되는 폴더·파일 작업
멀티 채널 알림
Slack+Telegram+LINE 동시 전달
개발 환경 세팅
새 프로젝트 시작 루틴
의의
1. "시연으로 프로그래밍하지 않는 자동화"
- 코드·워크플로 빌더 ❌
- 사용자가 그냥 하던 대로 하면 됨
2. 의도 기반 = 적응력
- 화면 레이아웃 변경에도 동작
- 매크로의 근본 한계 극복
3. 점진적 신뢰 구축
- 관찰 → 모방 → 기억 → 최적화 → 자율
- 불확실하면 보류 (안전 우선)
4. SKILL.md = 사람이 읽는 자동화
- 블랙박스 ❌
- 편집·공유·버전 관리 가능
5. 멀티채널 통합
- 8개 메시징 채널을 하나로
- 데스크탑 + 웹 + 터미널 + 메시징 통합