개요

부동산 AI를 만들면서 체감한 여러 LLM(대형 언어 모델)별 차이점과 비용·성능 트레이드오프를 정리합니다. GPT, Claude 등 기존 모델들은 부동산 관련 답변이 부실했고, 과거 데이터를 현재 데이터처럼 떠들거나 근거 없이 부정확한 정보를 제공했습니다.

목표

  • 품질 유지: 응답 품질을 크게 떨어뜨리지 않음
  • 비용 절감: 사업화 가능한 수준으로 비용 최소화

시스템 흐름 (3단계 + 검증·보정)

  1. 플래너 단계 – 질문 분류·데이터 조회·툴 선택
  2. 실행 단계 – 실제 데이터 조회·툴 수행
  3. 컨설팅 단계 – 최종 답변 생성
  4. 검증·보정 단계 – 계산 오류, 면책문구, 비허용 정보 등 검증 및 보정

모델 별 역할 및 평가

단계후보 모델특징비용 대비 성능
분류Grok 4.1 Fast프리미엄 수준 성능, 거의 무료 수준 비용매우 저렴, 충분히 정확
플래너Gemini 3.1 Flash Lite소넷, GPT와 유사 성능, 저비용가성비 좋음
실행Grok 4.1 Fast (툴 연동)툴 호출·데이터 조회에 충분히 안정적저렴하면서도 충분한 성능
컨설팅Claude Opus 4.6, Sonet 4.6, GPT‑5.4프리미엄 모델만이 만족스러운 결과 제공GPT‑5.4 가성비 최고 (비용은 Sonet 절반, 토큰 소모도 적음)
보정별도 모델 필요 없음, 기존 모델 결과 검증 후 조정

상세 분석

  • Claude Opus 4.6: 최고의 품질, 하지만 API 사용료가 비싸서 사업화에 부적합.
  • Sonet 4.6: 비용은 절감되지만 품질이 약간 낮거나 비슷함. 여전히 사업성 부족.
  • GPT‑5.4: 비용은 Sonet의 약 50% 수준이며, 응답 속도도 빠르고 토큰 사용량도 적음. 품질은 비슷하거나 약간 우수해 최종 선택.
  • Gemini 3.1 Flash Lite: 플래너 단계에 사용해도 충분히 좋은 성능을 보이며 비용 효율적.
  • Grok 4.1 Fast: 분류 단계에서 프리미엄 모델 수준 성능을 제공하면서 거의 무상에 가까운 비용. 플래너·컨설팅 단계에서는 품질이 떨어져 사용하지 않음.
  • 중국 모델(Qwan, MiniMax 등): 비용 저렴하지만 한국어·일본어·아랍어 혼입 등 품질 문제 발생. 보정 절차 필요 → 응답 지연·복잡도 상승으로 실용성 낮음.

최종 모델 구성 요약

  • 분류: Grok 4.1 Fast (초저비용, 충분히 정확)
  • 플래너: Gemini 3.1 Flash Lite (가성비 좋은 성능)
  • 실행: Grok 4.1 Fast (툴 연동에 충분)
  • 컨설팅: GPT‑5.4 (가성비 최고, 품질 유지)
  • 검증·보정: 기존 파이프라인에서 자동 검증 로직 사용

결론

  • 프리미엄 모델 없이도 가성비 높은 부동산 AI를 구현 가능.
  • 핵심은 단계별 모델 최적화검증·보정 프로세스.
  • 중국 모델은 현재 한국어 사용 환경에 부적합하므로 배제.

작성일: 2024‑04‑20