개요

LangChain 스킬 공개는 LangChain이 Skills를 통해 코딩 에이전트 성능을 크게 끌어올린 사례입니다. 핵심은 모델을 바꾸기보다, 에이전트가 어떤 상황에 어떤 절차를 따라야 하는지를 스킬로 내장하는 것입니다.

  • 원문: https://aisparkup.com/posts/9881
  • 관련 생태계: LangChain, LangGraph, LangSmith
  • 핵심 메시지: 스킬이 없으면 실패하던 태스크가, 스킬을 장착하면 대부분 통과

한 줄 요약

“LangChain/LangSmith 작업은 모델만으로가 아니라, 적절한 스킬을 붙여야 제대로 된다.”


무엇이 달라졌나

LangChain은 코딩 에이전트가 LangChain/LangGraph/LangSmith 관련 태스크를 수행할 때:

  • 스킬 없이 약 25% 수준이던 성공률을
  • 스킬 적용 후 95% 수준까지 끌어올렸습니다.

특히 LangSmith 관련 태스크는:

  • 17% → 92%

로 크게 개선됐습니다.

즉, 이 사례는 모델 지능보다 작업 맥락용 스킬 패키징이 병목을 푼다는 점을 보여줍니다.


공개된 스킬

LangChain 스킬 11종

  • 에이전트 기본 루프
  • LangGraph Human-in-the-Loop
  • Deep Agents
  • 기타 LangChain 생태계 작업

LangSmith 스킬 3종

  • 트레이싱
  • 데이터셋 구축
  • 에이전트 평가

LangSmith CLI

  • 터미널에서 트레이스 조회
  • 데이터셋 관리
  • 실험 실행

즉, 문서와 스킬만이 아니라 CLI까지 함께 묶어서 실전 작업을 가능하게 했습니다.


평가 결과

전체 성능

  • Claude Code 완료율: 82%
  • 스킬 미사용: 9%

이 차이는 단순 튜닝이 아니라 워크플로우 패키징의 효과로 보는 게 맞습니다.

스킬 수와 정확도

흥미로운 점은 스킬이 많다고 항상 좋은 게 아니라는 점입니다.

  • 스킬이 너무 많으면 오작동 증가
  • 20개 수준에서는 오히려 혼선
  • 12개 정도로 줄였을 때 정확도 향상

즉, 스킬 시스템도 과적재보다 큐레이션이 중요합니다.


왜 효과가 컸나

1. AGENTS.md / CLAUDE.md와 결합

에이전트가:

  • 언제 어떤 스킬을 써야 하는지
  • 어떤 순서로 실행해야 하는지

를 명확히 알면 성능이 올라갑니다.

2. 작업별 절차를 숨기지 않음

LangChain/LangSmith 작업은 본질적으로:

  • 실행 로그 확인
  • 데이터셋 구성
  • 평가 지표 계산

같은 반복 작업이 많습니다.

스킬은 이런 반복 절차를 한 번에 호출 가능한 단위로 만든 것입니다.

3. 자기개선 루프를 열어줌

LangSmith 스킬이 있으면 에이전트가:

  • 실행 로그 분석
  • 문제 요약
  • 테스트 데이터셋 생성
  • 평가자 구성

까지 이어서 할 수 있습니다.

즉, 에이전트가 에이전트를 개선하는 루프가 열립니다.


해석

이 사례의 본질은 다음입니다.

모델 성능
  + 적절한 스킬
  + 명확한 호출 규칙
  + 도메인별 워크플로
= 실사용 성능

즉, 모델이 다 알아서 하는 것이 아니라, 업무를 스킬 단위로 잘 나누는 쪽이 더 중요하다는 뜻입니다.


pm-skills와의 관계

이 문서는 pm-skills와 매우 유사한 문제를 다룹니다.

  • pm-skills는 PM 워크플로를 스킬로 쪼갠 것
  • LangChain 스킬 공개는 LangChain/LangSmith 워크플로를 스킬로 쪼갠 것

둘 다:

  • 자동 로딩
  • 체인형 워크플로
  • 도메인별 절차 패키징

이라는 공통점을 가집니다.


관련 항목