개요
LangChain 스킬 공개는 LangChain이 Skills를 통해 코딩 에이전트 성능을 크게 끌어올린 사례입니다. 핵심은 모델을 바꾸기보다, 에이전트가 어떤 상황에 어떤 절차를 따라야 하는지를 스킬로 내장하는 것입니다.
- 원문: https://aisparkup.com/posts/9881
- 관련 생태계: LangChain, LangGraph, LangSmith
- 핵심 메시지: 스킬이 없으면 실패하던 태스크가, 스킬을 장착하면 대부분 통과
한 줄 요약
“LangChain/LangSmith 작업은 모델만으로가 아니라, 적절한 스킬을 붙여야 제대로 된다.”
무엇이 달라졌나
LangChain은 코딩 에이전트가 LangChain/LangGraph/LangSmith 관련 태스크를 수행할 때:
- 스킬 없이 약 25% 수준이던 성공률을
- 스킬 적용 후 95% 수준까지 끌어올렸습니다.
특히 LangSmith 관련 태스크는:
- 17% → 92%
로 크게 개선됐습니다.
즉, 이 사례는 모델 지능보다 작업 맥락용 스킬 패키징이 병목을 푼다는 점을 보여줍니다.
공개된 스킬
LangChain 스킬 11종
- 에이전트 기본 루프
- LangGraph Human-in-the-Loop
- Deep Agents
- 기타 LangChain 생태계 작업
LangSmith 스킬 3종
- 트레이싱
- 데이터셋 구축
- 에이전트 평가
LangSmith CLI
- 터미널에서 트레이스 조회
- 데이터셋 관리
- 실험 실행
즉, 문서와 스킬만이 아니라 CLI까지 함께 묶어서 실전 작업을 가능하게 했습니다.
평가 결과
전체 성능
- Claude Code 완료율: 82%
- 스킬 미사용: 9%
이 차이는 단순 튜닝이 아니라 워크플로우 패키징의 효과로 보는 게 맞습니다.
스킬 수와 정확도
흥미로운 점은 스킬이 많다고 항상 좋은 게 아니라는 점입니다.
- 스킬이 너무 많으면 오작동 증가
- 약 20개 수준에서는 오히려 혼선
- 12개 정도로 줄였을 때 정확도 향상
즉, 스킬 시스템도 과적재보다 큐레이션이 중요합니다.
왜 효과가 컸나
1. AGENTS.md / CLAUDE.md와 결합
에이전트가:
- 언제 어떤 스킬을 써야 하는지
- 어떤 순서로 실행해야 하는지
를 명확히 알면 성능이 올라갑니다.
2. 작업별 절차를 숨기지 않음
LangChain/LangSmith 작업은 본질적으로:
- 실행 로그 확인
- 데이터셋 구성
- 평가 지표 계산
같은 반복 작업이 많습니다.
스킬은 이런 반복 절차를 한 번에 호출 가능한 단위로 만든 것입니다.
3. 자기개선 루프를 열어줌
LangSmith 스킬이 있으면 에이전트가:
- 실행 로그 분석
- 문제 요약
- 테스트 데이터셋 생성
- 평가자 구성
까지 이어서 할 수 있습니다.
즉, 에이전트가 에이전트를 개선하는 루프가 열립니다.
해석
이 사례의 본질은 다음입니다.
모델 성능
+ 적절한 스킬
+ 명확한 호출 규칙
+ 도메인별 워크플로
= 실사용 성능즉, 모델이 다 알아서 하는 것이 아니라, 업무를 스킬 단위로 잘 나누는 쪽이 더 중요하다는 뜻입니다.
pm-skills와의 관계
이 문서는 pm-skills와 매우 유사한 문제를 다룹니다.
pm-skills는 PM 워크플로를 스킬로 쪼갠 것LangChain 스킬 공개는 LangChain/LangSmith 워크플로를 스킬로 쪼갠 것
둘 다:
- 자동 로딩
- 체인형 워크플로
- 도메인별 절차 패키징
이라는 공통점을 가집니다.