Batch Scheduling

  • Apache Airflow: 워크플로우 오케스트레이션 및 스케줄링 플랫폼
  • Apache NiFi: 데이터 흐름 자동화 및 관리 도구
  • Luigi: Python 기반 워크플로우 관리 프레임워크
  • Prefect: 현대적인 워크플로우 오케스트레이션 도구

Visualization

  • Apache Zeppelin: 웹 기반 노트북 형태의 데이터 분석 도구
  • Apache Superset: 데이터 탐색 및 시각화 플랫폼
  • Tableau: 강력한 비즈니스 인텔리전스 및 데이터 시각화 도구
  • Power BI: Microsoft의 비즈니스 분석 서비스
  • Grafana: 시계열 데이터 모니터링 및 시각화 도구
  • Looker: Google의 비즈니스 인텔리전스 플랫폼
  • Metabase: 사용하기 쉬운 오픈소스 BI 도구
  • Redash: SQL 기반 데이터 시각화 및 대시보드 도구
  • Kibana: Elasticsearch 데이터 시각화 및 탐색 도구
  • Qlik: 자체 분석 및 시각화 플랫폼

Querying

  • Dask: 병렬 컴퓨팅을 위한 Python 라이브러리
  • Apache Spark: 대규모 데이터 처리를 위한 통합 분석 엔진
  • Presto: 분산 SQL 쿼리 엔진
  • Apache Drill: 스키마 없는 SQL 쿼리 엔진
  • Apache Hive: 데이터 웨어하우징 및 SQL 인터페이스 제공 도구

Store & Analytics

Message Queue

  • Kafka: 분산 이벤트 스트리밍 플랫폼
  • Flink: 스트림 및 배치 처리 프레임워크
  • RabbitMQ: 오픈소스 메시지 브로커
  • Apache Pulsar: 분산 메시징 및 스트리밍 플랫폼

Search Engine

  • ElasticSearch: 분산 검색 및 분석 엔진
  • OpenSearch: Elasticsearch 포크 오픈소스 검색 엔진
  • Solr: 고성능 검색 서버

Version Control

  • LakeFS: 데이터 레이크를 위한 버전 관리 도구
  • DVC: 데이터 및 ML 모델 버전 관리 도구
  • Git: 소스 코드 버전 관리 시스템
  • Delta Lake: 데이터 레이크를 위한 스토리지 계층

Modeling

  • DataWare DA: 데이터 모델링 도구
  • ERWin: 데이터 모델링 및 데이터베이스 설계 도구
  • Lucidchart: 다이어그램 및 시각화 도구
  • dbdiagram.io: 데이터베이스 스키마 설계 도구
  • MySQL Workbench: MySQL 데이터베이스 모델링 및 관리 도구
  • Oracle SQL Developer Data Modeler: Oracle 데이터베이스 모델링 도구
  • Vertabelo: 웹 기반 데이터베이스 설계 도구
  • pgModeler: PostgreSQL 데이터베이스 모델링 도구
  • Mermaid: 마크다운 기반 다이어그램 생성 도구
  • d2: 선언적 다이어그램 생성 도구

Data Processing

Crawling

  • Scrapy: Python 기반 웹 크롤링 및 스크래핑 프레임워크
  • Beautiful Soup: HTML 및 XML 파싱 라이브러리
  • Selenium: 웹 브라우저 자동화 도구
  • Puppeteer: Node.js 기반 헤드리스 Chrome 제어 라이브러리
  • Playwright: 모던 웹 브라우저 자동화 라이브러리
  • Apache Nutch: 확장 가능한 웹 크롤링 프레임워크
  • Apify: 웹 스크래핑 및 자동화 플랫폼
  • Octoparse: 코드 없이 웹 데이터 추출 도구
  • ParseHub: 복잡한 웹사이트 데이터 추출 도구

Labeling

  • Label Studio: 오픈소스 다목적 데이터 라벨링 도구
  • Prodigy: 능동적 학습 기반의 효율적인 어노테이션 도구
  • Labelbox: 엔터프라이즈급 데이터 라벨링 플랫폼
  • Amazon SageMaker Ground Truth: AWS의 관리형 데이터 라벨링 서비스
  • Supervisely: 컴퓨터 비전 데이터 라벨링 및 관리 플랫폼
  • CVAT: 컴퓨터 비전 어노테이션 도구
  • Doccano: 텍스트 어노테이션을 위한 오픈소스 도구
  • Dataturks: 협업 기반 데이터 라벨링 플랫폼
  • Scale AI: AI 학습 데이터 라벨링 서비스
  • Appen: 고품질 학습 데이터 구축 플랫폼
  • audino: 오디오 어노테이션을 위한 오픈소스 웹 플랫폼
  • Argilla: NLP 데이터 라벨링 및 큐레이션을 위한 협업 도구
  • V7: 컴퓨터 비전 및 멀티모달 데이터 라벨링 플랫폼
  • Snorkel: 프로그래밍 방식의 데이터 라벨링 프레임워크
  • Hasty.ai: AI 지원 이미지 어노테이션 플랫폼

데이터 시각화 및 탐색 도구

데이터 엔지니어는 데이터 파이프라인을 구축하고 관리할 뿐만 아니라, 데이터를 효과적으로 시각화하고 탐색하는 도구에도 익숙해야 합니다. 이러한 도구들은 데이터 품질 검증, 파이프라인 모니터링, 그리고 데이터 인사이트 도출에 필수적입니다.

주요 시각화 도구

  • Matplotlib: Python의 기본 시각화 라이브러리
  • Seaborn: 통계 데이터 시각화에 특화된 Python 라이브러리
  • Plotly: 인터랙티브 시각화를 위한 오픈소스 라이브러리
  • Altair: 선언적 시각화를 위한 Python 라이브러리
  • Vega: JSON 기반의 시각화 문법
  • ggplot2: R 언어의 강력한 시각화 패키지
  • Looker: Google의 비즈니스 인텔리전스 플랫폼
  • QuickSight: AWS의 클라우드 기반 BI 서비스
  • Redash: 오픈소스 데이터 시각화 및 대시보드 도구

데이터 시각화 도구

  • FiftyOne: 컴퓨터 비전 데이터셋 시각화 및 관리 오픈소스 플랫폼
  • Streamlit: 데이터 앱을 빠르게 구축할 수 있는 Python 프레임워크
  • Plotly Dash: 대화형 분석 웹 애플리케이션 구축 도구
  • Tableau: 비즈니스 인텔리전스 및 데이터 시각화 도구
  • Power BI: Microsoft의 비즈니스 분석 서비스
  • Metabase: 오픈소스 비즈니스 인텔리전스 도구
  • Superset: Apache의 모던 데이터 탐색 및 시각화 플랫폼
  • Grafana: 시계열 데이터 모니터링 및 시각화 도구
  • Kibana: Elasticsearch 데이터 시각화 및 탐색 도구
  • CVAT Explorer: 컴퓨터 비전 데이터셋 탐색 및 분석 도구
  • Weights & Biases: ML 실험 추적 및 데이터셋 시각화 도구
  • Facets: 머신러닝 데이터셋 시각화 도구
  • Great Expectations: 데이터 검증 및 문서화 프레임워크
  • D3.js: 웹 기반 데이터 시각화 라이브러리
  • Bokeh: 인터랙티브 웹 시각화 Python 라이브러리
  • Observable: 데이터 시각화를 위한 협업 노트북 플랫폼
  • ECharts: 인터랙티브 차트 및 그래프 라이브러리
  • Highcharts: 웹용 인터랙티브 차트 라이브러리
  • Datawrapper: 사용하기 쉬운 데이터 시각화 도구
  • RAWGraphs: 복잡한 데이터셋을 위한 오픈소스 시각화 플랫폼

요소

데이터: 정보의 기본 단위 데이터 품질: 데이터의 정확성, 완전성, 일관성 등을 보장 데이터 거버넌스: 데이터 관리 정책 및 프로세스 데이터 카탈로그: 데이터 자산의 인벤토리 및 메타데이터 저장소 메타데이터 관리: 데이터에 대한 데이터 관리

업무

개발목표 플랫폼

역할