데이터 수집

목적에 맞는 구성

데이터 수집

데이터를 수집하고 인사이트를 얻고 사용자들에게 제공

  • 데이터 분석은 중요한 워크로드

  • 머신러닝, AI

  • 목적과 워크로드에 맞는 구성 할 수 있도록 조금씩 다른 옵션들을 제공

  • 키네시스, 아파치 카프카

키네시스, 카프카란? 실시간 데이터 스트리밍을 처리하기 위한 분산 메시징 플랫폼, 대량의 데이터를 실시간으로 수집, 처리, 분석하는 데 사용

데이터 처리

수집한 데이터를 처리

  • ETL, 맵 리듀스 방식

    • ETL: 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 단계 - AWS Glue

    • 맵 리듀스: 대규모 데이터 병렬 처리 및 분석 - Amazon EMR

  • 자유로운 커스텀 방식인 서버리스 - Lambda

데이터 저장

처리가 된 데이터를 어딘가에 저장

  • S3, AWS Lake Formation, Data Extchange, Glue Data catalog

데이터 소비

검색 용도, 시각화, 쿼리 엔진 등 목적에 맞게 사용

데이터 예측

머신러닝, AI 영역 등에서 사용

  • 내가 갖고 있는 데이터에서 내가 미처 알지 못한 인사이트를 얻으려는 시도

데이터 분석 영역 (데이터 레이크)

어떤 데이터인지 모르겠지만 일단 중앙 저장소에 모두 수집

  • structured / unstructured 데이터 상관없이 모든 raw 데이터를 모으는 중앙 저장소

  • tiered bucket 을 사용해 처리 데이터 구분

Last updated