툴
Batch Scheduling
- Apache Airflow: 워크플로우 오케스트레이션 및 스케줄링 플랫폼
- Apache NiFi: 데이터 흐름 자동화 및 관리 도구
- Luigi: Python 기반 워크플로우 관리 프레임워크
- Prefect: 현대적인 워크플로우 오케스트레이션 도구
Visualization
- Apache Zeppelin: 웹 기반 노트북 형태의 데이터 분석 도구
- Apache Superset: 데이터 탐색 및 시각화 플랫폼
- Tableau: 강력한 비즈니스 인텔리전스 및 데이터 시각화 도구
- Power BI: Microsoft의 비즈니스 분석 서비스
- Grafana: 시계열 데이터 모니터링 및 시각화 도구
- Looker: Google의 비즈니스 인텔리전스 플랫폼
- Metabase: 사용하기 쉬운 오픈소스 BI 도구
- Redash: SQL 기반 데이터 시각화 및 대시보드 도구
- Kibana: Elasticsearch 데이터 시각화 및 탐색 도구
- Qlik: 자체 분석 및 시각화 플랫폼
Querying
- Dask: 병렬 컴퓨팅을 위한 Python 라이브러리
- Apache Spark: 대규모 데이터 처리를 위한 통합 분석 엔진
- Presto: 분산 SQL 쿼리 엔진
- Apache Drill: 스키마 없는 SQL 쿼리 엔진
- Apache Hive: 데이터 웨어하우징 및 SQL 인터페이스 제공 도구
Store & Analytics
- GCP BigQuery: Google의 서버리스 데이터 웨어하우스
- AWS Athena: 서버리스 대화형 쿼리 서비스
- Azure Synapse Analytics: 통합 분석 서비스
- Snowflake: 클라우드 데이터 플랫폼
- Redshift: AWS의 관리형 데이터 웨어하우스 서비스
Message Queue
- Kafka: 분산 이벤트 스트리밍 플랫폼
- Flink: 스트림 및 배치 처리 프레임워크
- RabbitMQ: 오픈소스 메시지 브로커
- Apache Pulsar: 분산 메시징 및 스트리밍 플랫폼
Search Engine
- ElasticSearch: 분산 검색 및 분석 엔진
- OpenSearch: Elasticsearch 포크 오픈소스 검색 엔진
- Solr: 고성능 검색 서버
Version Control
- LakeFS: 데이터 레이크를 위한 버전 관리 도구
- DVC: 데이터 및 ML 모델 버전 관리 도구
- Git: 소스 코드 버전 관리 시스템
- Delta Lake: 데이터 레이크를 위한 스토리지 계층
Modeling
- DataWare DA: 데이터 모델링 도구
- ERWin: 데이터 모델링 및 데이터베이스 설계 도구
- Lucidchart: 다이어그램 및 시각화 도구
- dbdiagram.io: 데이터베이스 스키마 설계 도구
- MySQL Workbench: MySQL 데이터베이스 모델링 및 관리 도구
- Oracle SQL Developer Data Modeler: Oracle 데이터베이스 모델링 도구
- Vertabelo: 웹 기반 데이터베이스 설계 도구
- pgModeler: PostgreSQL 데이터베이스 모델링 도구
- Mermaid: 마크다운 기반 다이어그램 생성 도구
- d2: 선언적 다이어그램 생성 도구
Data Processing
- Apache Beam: 통합 배치 및 스트림 데이터 처리
- Apache Hadoop: 분산 저장 및 처리 프레임워크
- Pandas: Python 데이터 분석 라이브러리
- PySpark: Spark의 Python API
- DocETL (Document Extract Transform Load): 문서에서 데이터 추출 및 처리
Crawling
- Scrapy: Python 기반 웹 크롤링 및 스크래핑 프레임워크
- Beautiful Soup: HTML 및 XML 파싱 라이브러리
- Selenium: 웹 브라우저 자동화 도구
- Puppeteer: Node.js 기반 헤드리스 Chrome 제어 라이브러리
- Playwright: 모던 웹 브라우저 자동화 라이브러리
- Apache Nutch: 확장 가능한 웹 크롤링 프레임워크
- Apify: 웹 스크래핑 및 자동화 플랫폼
- Octoparse: 코드 없이 웹 데이터 추출 도구
- ParseHub: 복잡한 웹사이트 데이터 추출 도구
Labeling
- Label Studio: 오픈소스 다목적 데이터 라벨링 도구
- Prodigy: 능동적 학습 기반의 효율적인 어노테이션 도구
- Labelbox: 엔터프라이즈급 데이터 라벨링 플랫폼
- Amazon SageMaker Ground Truth: AWS의 관리형 데이터 라벨링 서비스
- Supervisely: 컴퓨터 비전 데이터 라벨링 및 관리 플랫폼
- CVAT: 컴퓨터 비전 어노테이션 도구
- Doccano: 텍스트 어노테이션을 위한 오픈소스 도구
- Dataturks: 협업 기반 데이터 라벨링 플랫폼
- Scale AI: AI 학습 데이터 라벨링 서비스
- Appen: 고품질 학습 데이터 구축 플랫폼
- audino: 오디오 어노테이션을 위한 오픈소스 웹 플랫폼
- Argilla: NLP 데이터 라벨링 및 큐레이션을 위한 협업 도구
- V7: 컴퓨터 비전 및 멀티모달 데이터 라벨링 플랫폼
- Snorkel: 프로그래밍 방식의 데이터 라벨링 프레임워크
- Hasty.ai: AI 지원 이미지 어노테이션 플랫폼
데이터 시각화 및 탐색 도구
데이터 엔지니어는 데이터 파이프라인을 구축하고 관리할 뿐만 아니라, 데이터를 효과적으로 시각화하고 탐색하는 도구에도 익숙해야 합니다. 이러한 도구들은 데이터 품질 검증, 파이프라인 모니터링, 그리고 데이터 인사이트 도출에 필수적입니다.
주요 시각화 도구
- Matplotlib: Python의 기본 시각화 라이브러리
- Seaborn: 통계 데이터 시각화에 특화된 Python 라이브러리
- Plotly: 인터랙티브 시각화를 위한 오픈소스 라이브러리
- Altair: 선언적 시각화를 위한 Python 라이브러리
- Vega: JSON 기반의 시각화 문법
- ggplot2: R 언어의 강력한 시각화 패키지
- Looker: Google의 비즈니스 인텔리전스 플랫폼
- QuickSight: AWS의 클라우드 기반 BI 서비스
- Redash: 오픈소스 데이터 시각화 및 대시보드 도구
데이터 시각화 도구
- FiftyOne: 컴퓨터 비전 데이터셋 시각화 및 관리 오픈소스 플랫폼
- Streamlit: 데이터 앱을 빠르게 구축할 수 있는 Python 프레임워크
- Plotly Dash: 대화형 분석 웹 애플리케이션 구축 도구
- Tableau: 비즈니스 인텔리전스 및 데이터 시각화 도구
- Power BI: Microsoft의 비즈니스 분석 서비스
- Metabase: 오픈소스 비즈니스 인텔리전스 도구
- Superset: Apache의 모던 데이터 탐색 및 시각화 플랫폼
- Grafana: 시계열 데이터 모니터링 및 시각화 도구
- Kibana: Elasticsearch 데이터 시각화 및 탐색 도구
- CVAT Explorer: 컴퓨터 비전 데이터셋 탐색 및 분석 도구
- Weights & Biases: ML 실험 추적 및 데이터셋 시각화 도구
- Facets: 머신러닝 데이터셋 시각화 도구
- Great Expectations: 데이터 검증 및 문서화 프레임워크
- D3.js: 웹 기반 데이터 시각화 라이브러리
- Bokeh: 인터랙티브 웹 시각화 Python 라이브러리
- Observable: 데이터 시각화를 위한 협업 노트북 플랫폼
- ECharts: 인터랙티브 차트 및 그래프 라이브러리
- Highcharts: 웹용 인터랙티브 차트 라이브러리
- Datawrapper: 사용하기 쉬운 데이터 시각화 도구
- RAWGraphs: 복잡한 데이터셋을 위한 오픈소스 시각화 플랫폼
요소
데이터: 정보의 기본 단위 데이터 품질: 데이터의 정확성, 완전성, 일관성 등을 보장 데이터 거버넌스: 데이터 관리 정책 및 프로세스 데이터 카탈로그: 데이터 자산의 인벤토리 및 메타데이터 저장소 메타데이터 관리: 데이터에 대한 데이터 관리
업무
개발목표 플랫폼
- DataOps: 데이터 운영 자동화 및 협업 방법론
- MLOps: 머신러닝 모델 개발 및 운영 프로세스
- 데이터 레이크: 원시 데이터를 저장하는 중앙 저장소
- 데이터 웨어하우스: 구조화된 데이터 분석을 위한 저장소
- 데이터 메시: 분산 데이터 아키텍처 접근 방식
- 데이터 마트: 특정 비즈니스 영역을 위한 데이터 저장소
- 데이터 레이크하우스: 데이터 레이크와 웨어하우스의 장점을 결합
- 데이터 패브릭: 통합 데이터 관리 아키텍처
- 데이터 가상화: 물리적 위치에 관계없이 데이터 접근 제공
- 실시간 분석 플랫폼: 스트리밍 데이터의 즉각적인 분석 지원
역할
- 데이터 파이프라인 개발: 데이터 수집, 변환, 적재 프로세스 구축
- 데이터 플랫폼 개발: 데이터 인프라 및 서비스 구축
- 데이터 통합 구현: 다양한 소스의 데이터 통합
- 데이터 마이그레이션 수행: 데이터를 한 시스템에서 다른 시스템으로 이동
- 데이터 모델링 및 설계: 효율적인 데이터 구조 설계