개요

Large Language Model(LLM)은 대규모 텍스트 데이터로 학습된 Transformers 기반 Generative Models입니다. 자연어 이해, 생성, 번역, 요약, 코드 작성 등 다양한 작업을 수행합니다.

주요 LLM 프로바이더 및 모델

OpenAI

  • GPT-4.1: 최신 플래그십 모델
  • GPT-4o: 멀티모달 (텍스트, 이미지, 오디오)
  • GPT-4.5 Preview: 연구용 대규모 모델
  • O1/O3/O4 계열: 추론(Reasoning) 특화 모델

Anthropic

  • Claude 4 Opus: 최고 성능 모델
  • Claude 4 Sonnet: 성능/비용 균형
  • Claude 3.5 Haiku: 경량 고속 모델

Google

  • Gemini 2.5 Pro: 플래그십 멀티모달
  • Gemini 2.5 Flash: 고속 경량
  • Gemma: 오픈소스 경량 모델

Meta

  • Llama 4 Maverick/Scout: 오픈소스 대규모 모델
  • Llama 3.3 70B: 오픈소스

Alibaba (Qwen)

  • Qwen2.5: 텍스트 생성 모델
  • Qwen2.5-VL: 비전-언어 멀티모달 모델
  • Qwen2.5-Coder: 코딩 특화 모델

Deepseek

  • Deepseek R1: 추론 특화 오픈소스 모델
  • Deepseek V3: 범용 모델

Mistral

  • Mistral Large: 플래그십
  • Mistral Small: 경량 모델
  • Codestral: 코딩 특화

비전-언어 모델 (VLM)

이미지와 텍스트를 함께 이해하는 멀티모달 모델입니다. Optical Character Recognition (OCR), 이미지 캡셔닝, 문서 이해 등에 활용됩니다.

경량 VLM 비교

모델크기VRAM특징
OpenGVLab/InternVL3-2B2B~5.5GB벤치마크 강세
google/paligemma2-3b-ft-docci-4483B~8GBOCR/캡셔닝 특화
Qwen/Qwen2.5-VL-3B-Instruct-AWQ3.8B (4bit)~5GBVRAM 여유 최대
h2oai/h2ovl-mississippi-800m0.8B~3GBOCR 특화 초소형

대형 VLM

  • GPT-4o (OpenAI): 텍스트/이미지/오디오 통합
  • Claude 4 Opus/Sonnet (Anthropic): 이미지 이해
  • Gemini 2.5 Pro (Google): 네이티브 멀티모달
  • Qwen2.5-VL-72B (Alibaba): 오픈소스 대형 VLM
  • InternVL3-78B (OpenGVLab): 오픈소스 고성능

모델 최적화 기법

추론 엔진

  • vLLM: 고성능 LLM 서빙 엔진
  • Ollama: 로컬 LLM 실행
  • llama.cpp: CPU/GPU 경량 추론
  • TensorRT-LLM: NVIDIA 최적화 추론

교육/학습 자료

프로젝트개발자설명
microgptAndrej Karpathy200줄 순수 Python으로 GPT 전체 구현 — 외부 의존성 없이 토크나이저, Autograd, Transformer, Adam 옵티마이저, 학습 루프 포함. 프로덕션 LLM과 차이는 규모뿐, 핵심 알고리즘 동일
nanoGPTAndrej Karpathy중간 규모 GPT 학습/파인튜닝, PyTorch 기반
minGPTAndrej KarpathyGPT 아키텍처 교육용 구현
llm.cAndrej Karpathy순수 C/CUDA로 LLM 학습 구현
  • microgpt: 32,000개 이름 데이터셋, 27개 토큰(소문자 26 + BOS), 학습 후 새 이름 생성 (“kamon”, “karai” 등)
  • GitHub: https://github.com/karpathy/microgpt

관련 개념

비교 및 참고