개요
부동산 AI를 만들면서 체감한 여러 LLM(대형 언어 모델)별 차이점과 비용·성능 트레이드오프를 정리합니다. GPT, Claude 등 기존 모델들은 부동산 관련 답변이 부실했고, 과거 데이터를 현재 데이터처럼 떠들거나 근거 없이 부정확한 정보를 제공했습니다.
목표
- 품질 유지: 응답 품질을 크게 떨어뜨리지 않음
- 비용 절감: 사업화 가능한 수준으로 비용 최소화
시스템 흐름 (3단계 + 검증·보정)
- 플래너 단계 – 질문 분류·데이터 조회·툴 선택
- 실행 단계 – 실제 데이터 조회·툴 수행
- 컨설팅 단계 – 최종 답변 생성
- 검증·보정 단계 – 계산 오류, 면책문구, 비허용 정보 등 검증 및 보정
모델 별 역할 및 평가
| 단계 | 후보 모델 | 특징 | 비용 대비 성능 |
|---|---|---|---|
| 분류 | Grok 4.1 Fast | 프리미엄 수준 성능, 거의 무료 수준 비용 | 매우 저렴, 충분히 정확 |
| 플래너 | Gemini 3.1 Flash Lite | 소넷, GPT와 유사 성능, 저비용 | 가성비 좋음 |
| 실행 | Grok 4.1 Fast (툴 연동) | 툴 호출·데이터 조회에 충분히 안정적 | 저렴하면서도 충분한 성능 |
| 컨설팅 | Claude Opus 4.6, Sonet 4.6, GPT‑5.4 | 프리미엄 모델만이 만족스러운 결과 제공 | GPT‑5.4 가성비 최고 (비용은 Sonet 절반, 토큰 소모도 적음) |
| 보정 | – | 별도 모델 필요 없음, 기존 모델 결과 검증 후 조정 |
상세 분석
- Claude Opus 4.6: 최고의 품질, 하지만 API 사용료가 비싸서 사업화에 부적합.
- Sonet 4.6: 비용은 절감되지만 품질이 약간 낮거나 비슷함. 여전히 사업성 부족.
- GPT‑5.4: 비용은 Sonet의 약 50% 수준이며, 응답 속도도 빠르고 토큰 사용량도 적음. 품질은 비슷하거나 약간 우수해 최종 선택.
- Gemini 3.1 Flash Lite: 플래너 단계에 사용해도 충분히 좋은 성능을 보이며 비용 효율적.
- Grok 4.1 Fast: 분류 단계에서 프리미엄 모델 수준 성능을 제공하면서 거의 무상에 가까운 비용. 플래너·컨설팅 단계에서는 품질이 떨어져 사용하지 않음.
- 중국 모델(Qwan, MiniMax 등): 비용 저렴하지만 한국어·일본어·아랍어 혼입 등 품질 문제 발생. 보정 절차 필요 → 응답 지연·복잡도 상승으로 실용성 낮음.
최종 모델 구성 요약
- 분류: Grok 4.1 Fast (초저비용, 충분히 정확)
- 플래너: Gemini 3.1 Flash Lite (가성비 좋은 성능)
- 실행: Grok 4.1 Fast (툴 연동에 충분)
- 컨설팅: GPT‑5.4 (가성비 최고, 품질 유지)
- 검증·보정: 기존 파이프라인에서 자동 검증 로직 사용
결론
- 프리미엄 모델 없이도 가성비 높은 부동산 AI를 구현 가능.
- 핵심은 단계별 모델 최적화와 검증·보정 프로세스.
- 중국 모델은 현재 한국어 사용 환경에 부적합하므로 배제.
작성일: 2024‑04‑20