Codex 내부 실험 (수동 코드 없는 5개월)

개요

Codex 내부 실험은 OpenAI 내부 팀이 5개월 동안 수동으로 코드를 작성하지 않고 소프트웨어 제품의 내부 베타를 구축·출시한 사례입니다. 모든 코드는 Codex 에이전트가 생성했고, 사람은 주로 환경 설계, 의도 명시, 피드백 루프 구축에 집중했습니다.

출처: OpenAI 내부 사례
핵심 시점: 2025년 8월 말 시작
핵심 메시지: 코드보다 스캐폴딩과 검증 루프가 중요

한 줄 요약

“사람이 코드를 직접 쓰지 않아도, 에이전트가 일할 수 있는 환경을 잘 만들면 제품을 출시할 수 있다.”

규모

3명의 엔지니어로 시작
약 100만 라인의 코드
약 1,500개의 pull request
엔지니어 1인당 하루 평균 3.5 PR 병합
팀이 7명으로 늘어난 뒤 처리량은 오히려 증가

이 수치는 단순 자동화가 아니라, 에이전트가 실질 생산 체계의 중심에 들어왔다는 뜻입니다.

무엇이 달랐나

사람이 직접 코딩하지 않음

사람이 코드를 쓰지 않음
대신 에이전트가:
- 제품 코드
- 테스트
- CI
- 내부 개발자 도구
- 문서
- 평가 하니스
- PR 응답
까지 생성

엔지니어 역할 전환

기존:

구현
디버깅
리뷰

전환 후:

환경 설계
의도 명시
피드백 루프 설계
아키텍처 제약 강제

즉, 엔지니어는 코더에서 시스템 설계자로 이동했습니다.

빈 리포지터리에서 시작

첫 단계

2025년 8월 말 빈 git 리포지터리에 첫 커밋
초기 스캐폴드:
- 리포지터리 구조
- CI 구성
- 서식 규칙
- 패키지 관리자 설정
- 애플리케이션 프레임워크

이 초기 스캐폴드도 기존 템플릿을 기반으로 GPT-5 + Codex CLI로 생성했습니다.

AGENTS.md

초기 AGENTS.md도 Codex가 직접 작성
리포지터리 작업 방법을 에이전트에게 알려주는 문서

이 순간부터 리포지터리는 사람이 쌓은 코드베이스가 아니라, 에이전트가 형성한 코드베이스가 됩니다.

AGENTS.md 철학

가장 중요한 교훈 중 하나는 AGENTS.md를 백과사전이 아니라 목차로 써야 한다는 점입니다.

실패한 접근

하나의 큰 AGENTS.md
1,000페이지짜리 설명서처럼 사용

문제:

컨텍스트가 희소해짐
중요한 제약이 묻힘
오래된 규칙이 섞임
확인이 어려움

성공한 접근

AGENTS.md는 짧게 유지
리포지터리 지식은 docs/ 아래에 구조화
AGENTS.md는 맵만 제공
심층 정보는 링크된 문서로 이동

즉, 지시문은 짧게, 진실의 원본은 구조화된 문서에 두는 방식입니다.

문서와 구조

OpenAI 내부 실험에서는 문서가 단순 설명이 아니라 에이전트가 추론할 수 있는 기록 시스템이었습니다.

설계 문서
아키텍처 문서
품질 문서
실행 계획
기술 부채 기록

이 모두가 버전 관리되는 아티팩트로 취급됩니다.

기계적 검증

전용 린터
CI 작업
교차 링크 점검
문서 최신성 확인

즉, 문서를 수동으로 읽는 게 아니라 기계적으로 유지 관리합니다.

아키텍처 강제

엄격한 계층 구조

예시:

Types → Config → Repo → Service → Runtime → UI

교차 문제:

인증
커넥터
텔레메트리
기능 플래그

는 Providers라는 명시적 인터페이스로만 유입됩니다.

그 외는 허용하지 않고, 기계적으로 강제합니다.

맞춤형 린트

구조화된 로깅
명명 규칙
파일 크기 제한
플랫폼별 안정성 요구

이 규칙들은 인간에게는 답답할 수 있지만, 에이전트에는 가독성과 안정성을 크게 높이는 제약이 됩니다.

가독성 우선

이 실험에서 가장 흥미로운 부분은 리포지터리를 인간보다 Codex가 읽기 쉬운 형태로 만든 점입니다.

Codex가 읽을 수 있어야 하는 것

코드
마크다운
스키마
실행 계획
로그
메트릭

Codex가 읽을 수 없는 것

Google Docs
사람 머릿속의 지식
Slack 토론에서 합의된 패턴이 문서화되지 않은 것

즉, 에이전트 관점에서 리포지터리에 없는 것은 존재하지 않는 것과 같습니다.

피드백 루프

사람은 거의 전적으로 프롬프트로 시스템과 상호작용합니다.

작업 설명
에이전트 실행
PR 오픈
리뷰 요청
응답 반복

Codex는:

로컬에서 자체 변경사항 검토
로컬/클라우드 에이전트 리뷰 추가
피드백 반영
모든 에이전트 리뷰어가 만족할 때까지 반복

사실상 Ralph Wiggum Loop 같은 반복 검증 구조입니다.

QA와 관측성

코드 처리량이 늘자 인간 QA가 병목이 되었습니다. 그래서 앱 자체가 에이전트가 직접 읽을 수 있게 바뀌었습니다.

추가된 가독성 레이어

UI를 Codex가 직접 읽을 수 있게 구성
로그와 앱 메트릭 노출
git worktree별 앱 부팅
Chrome DevTools Protocol 연결
DOM 스냅샷
스크린샷
탐색용 스킬

관측 가능성

로그
메트릭
추적

을 각 worktree에 대해 일시적으로 유지하고, 작업 후 삭제합니다.

에이전트는:

LogQL로 로그를 쿼리
PromQL로 메트릭을 쿼리

할 수 있습니다.

엔트로피 관리

에이전트 자율성이 높아질수록 시간이 지나며 리포지터리가 드리프트합니다.

문제

Codex가 기존 패턴을 그대로 복제
불균일한 스타일이 퍼짐
기술 부채가 빠르게 누적

대응

“AI 슬로프”를 정리하는 정기 작업
황금 원칙을 코드와 문서에 직접 인코딩
정기적인 정리 PR
문서/품질 등급 업데이트

이건 사실상 가비지 컬렉션처럼 동작합니다.

즉, 기술 부채를 한 번에 없애는 게 아니라 계속 조금씩 치우는 체계입니다.

실무적 의미

이 실험이 보여주는 것은 단순합니다.

사람이 코드를 직접 쓰지 않아도 제품은 만들어진다
대신 스캐폴딩과 규율이 훨씬 중요해진다
AGENTS.md는 설명서가 아니라 네비게이션이다
문서, 린트, CI, 관측성이 코드보다 더 큰 비중을 갖는다
엔지니어의 일은 구현이 아니라 에이전트가 일할 수 있는 환경 설계다

Bigstones

Explorer