데이터 수집
Last updated
Last updated
데이터를 수집하고 인사이트를 얻고 사용자들에게 제공
데이터 분석은 중요한 워크로드
머신러닝, AI
목적과 워크로드에 맞는 구성 할 수 있도록 조금씩 다른 옵션들을 제공
키네시스, 아파치 카프카
키네시스, 카프카란? 실시간 데이터 스트리밍을 처리하기 위한 분산 메시징 플랫폼, 대량의 데이터를 실시간으로 수집, 처리, 분석하는 데 사용
수집한 데이터를 처리
ETL, 맵 리듀스 방식
ETL: 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 단계 - AWS Glue
맵 리듀스: 대규모 데이터 병렬 처리 및 분석 - Amazon EMR
자유로운 커스텀 방식인 서버리스 - Lambda
처리가 된 데이터를 어딘가에 저장
S3, AWS Lake Formation, Data Extchange, Glue Data catalog
검색 용도, 시각화, 쿼리 엔진 등 목적에 맞게 사용
머신러닝, AI 영역 등에서 사용
내가 갖고 있는 데이터에서 내가 미처 알지 못한 인사이트를 얻으려는 시도
어떤 데이터인지 모르겠지만 일단 중앙 저장소에 모두 수집
structured / unstructured 데이터 상관없이 모든 raw 데이터를 모으는 중앙 저장소
tiered bucket 을 사용해 처리 데이터 구분