Bigstones

❯

❯

❯

Over Editing (과도한 코드 편집)

Over-Editing (과도한 코드 편집)

May 13, 20265 min read

개요

Over-Editing은 모델이 버그를 고치는 데 필요한 최소 수정 범위를 넘어, 함수 전체 재작성이나 보조 로직 추가, 시그니처 변경까지 해버리는 현상입니다.

테스트는 통과할 수 있지만, brown-field 코드베이스에서는 리뷰 가능성, 변경 안전성, 유지보수성이 크게 떨어질 수 있습니다.

한 줄 요약

“Over-Editing은 정확성 실패가 아니라 편집 충실도 실패이며, 테스트 통과만으로는 잘 드러나지 않는다.”

왜 문제인가

green-field에서는 더 나은 구현이 도움이 될 수 있지만, 기존 코드베이스에서는 이미 팀이 이해하고 운영하는 구조를 존중하는 편이 더 중요합니다.

과도한 편집이 생기면:

diff가 불필요하게 커짐
리뷰어가 무엇이 왜 바뀌었는지 파악하기 어려워짐
변경 안전성 판단이 어려워짐
불필요한 복잡성이 조용히 누적됨

즉, 정답을 맞혔는가와 좋은 방식으로 고쳤는가는 다른 문제입니다.

측정 방법

연구는 BigCodeBench 문제 400개를 프로그램적으로 손상시켜, 정답 수정이 사실상 하나뿐인 최소 수정 문제를 만들었습니다.

핵심 지표:

토큰 단위 Levenshtein Distance
상대 패치 점수
Added Cognitive Complexity

특히 Added Cognitive Complexity는 구조를 건드리지 않아도 되는 문제에서 복잡도가 증가하면, 그 자체를 과도한 편집의 신호로 봅니다.

결과 해석

모델들은 실제로 Over-Edit하는가

최신 frontier 코딩 모델 전반에서 과도한 재작성 경향이 확인됨
정확성과 최소 수정성은 별개 축으로 드러남
Claude Opus 4.6은 정확성과 최소 수정성 조합이 강함
GPT-5.4는 상대적으로 과도한 편집 경향이 두드러짐

즉, 코딩 모델 평가는 단순 Pass@1만으로는 부족합니다.

프롬프트로 줄일 수 있는가

원본 코드와 로직을 최대한 보존하라는 명시적 지시가 diff를 줄임
특히 추론 모델에서 효과가 더 크게 나타남

기본 행동은 과도하게 손대는 쪽이지만, 제약을 주면 더 충실한 편집으로 이동할 수 있다는 뜻입니다.

학습으로 개선할 수 있는가

SFT는 특정 손상 유형엔 강했지만 일반화와 일반 능력 유지에서 실패
RL은 최소 편집 행동을 익히면서 일반 코딩 성능을 해치지 않음
LoRA 기반 RL도 상당 부분 효과적

즉, 최소 편집성은 단순 프롬프트 기교가 아니라 학습 가능한 편집 스타일로 보입니다.

실무적 의미

이 연구가 실무에 주는 메시지는 명확합니다.

테스트 통과만으로 충분하지 않음
brown-field 작업에서는 얼마나 적게 바꿨는가도 봐야 함
코드 에이전트 평가는 정확성 + diff 크기 + 복잡도 증가를 함께 봐야 함
하니스와 프롬프트에 최소 수정 지시를 넣는 것이 실질적 개선책이 될 수 있음

연결되는 주제

Hashline: 편집 포맷이 수정 충실도에 영향을 줌
AGENTS.md: 원본 보존 규칙을 명시적으로 넣을 수 있음
코드 리뷰: 변경량과 복잡도 증가를 별도 기준으로 봐야 함
RL for coding: 정확성뿐 아니라 편집 스타일도 학습 대상이 됨

관련 항목

코딩 에이전트 하니스 & Hashline
AI Coding Agent
Codex 플랫폼 (SDLC 가이드)
코드리뷰

Graph View

개요
한 줄 요약
왜 문제인가
측정 방법
결과 해석
모델들은 실제로 Over-Edit하는가
프롬프트로 줄일 수 있는가
학습으로 개선할 수 있는가
실무적 의미
연결되는 주제
관련 항목

Backlinks

Agentic Coding은 함정이다
Codex 플랫폼 (SDLC 가이드)
코딩 에이전트 하니스 & Hashline
AI Coding Agent