데이터 수집
목적에 맞는 구성

데이터 수집
데이터를 수집하고 인사이트를 얻고 사용자들에게 제공
데이터 분석은 중요한 워크로드
머신러닝, AI
목적과 워크로드에 맞는 구성 할 수 있도록 조금씩 다른 옵션들을 제공
키네시스, 아파치 카프카
데이터 처리
수집한 데이터를 처리
ETL, 맵 리듀스 방식
ETL: 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 단계 - AWS Glue
맵 리듀스: 대규모 데이터 병렬 처리 및 분석 - Amazon EMR
자유로운 커스텀 방식인 서버리스 - Lambda
데이터 저장
처리가 된 데이터를 어딘가에 저장
S3, AWS Lake Formation, Data Extchange, Glue Data catalog
데이터 소비
검색 용도, 시각화, 쿼리 엔진 등 목적에 맞게 사용
데이터 예측
머신러닝, AI 영역 등에서 사용
내가 갖고 있는 데이터에서 내가 미처 알지 못한 인사이트를 얻으려는 시도
데이터 분석 영역 (데이터 레이크)
어떤 데이터인지 모르겠지만 일단 중앙 저장소에 모두 수집

structured / unstructured 데이터 상관없이 모든 raw 데이터를 모으는 중앙 저장소
tiered bucket 을 사용해 처리 데이터 구분
Last updated