SlideShare a Scribd company logo
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
있는 그대로 저장하고, 바로 분석 가능한,
새로운 관점의 데이터 애널리틱 플랫폼
정세웅,
Anlaytics Solutions Architect, AWS
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Agenda
 데이터레이크
 데이터레이크 설계 및 구축
 데이터레이크 활용 및 확장
 AWS Lake Formation
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 플랫폼의 목적과 가치
Next-gen
Data
Platform
데이터를 모두
한 곳에 모으는
어떤 종류의
데이터든
수집과 저장
실시간, 배치성
데이터의 처리
데이터 탐색에
서 시각화, ML
까지 확장
확장 고민
없이 무제한
사용하는 리소
스
다양한 유형의
소비자에게
데이터 제공
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS의 데이터 레이크, 데이터 수집, 분석에서 ML까지
Amazon SageMaker
AWS Deep Learning AMIs
Amazon Rekognition
Amazon Lex
AWS DeepLens
Amazon Comprehend
Amazon Translate
Amazon Transcribe
Amazon Polly
Amazon Athena
Amazon EMR
Amazon Redshift
Amazon Elasticsearch service
Amazon Kinesis
Amazon QuickSight
Analytics
Machine Learning
AWS Direct Connect
AWS Snowball
AWS Snowmobile
AWS Database Migration Service
AWS IoT Core
Amazon Kinesis Data Firehose
Amazon Kinesis Data Streams
Amazon Kinesis Video Streams
Real-time
Data Movement
On-premises
Data Movement
Data Lake on AWS
Storage | Archival Storage | Data Catalog
Amazon S3 | AWS Glue
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lake를 통해 전통적인 DW를 확장
Data Warehouse
Business Intelligence
OLTP ERP CRM LOB
• 다양한 유형의 정형, 비정형 데이터 저장
• TBs–EBs scale
• 인사이트를 얻기 위해 다양한 분석 엔진
• 낮은 비용으로 저장과 분석이 가능
Devices Web Sensors Social
Big Data processing,
real-time, Machine Learning
Data Lake
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 소스
AWS Data Lake 기반의 분석 파이프라인
OLTP ERP
CRM LOB
Social
Devices
Web
Sensors
수집
Kinesis
DataSync
Glue
IoT Core
Database Migration Service
Amazon S3/Glacier AWS Lake Formation AWS Glue
ETL & Catalog
Data Lake
저장
Athena EMRRedshift Elasticsearch Kinesis Data
Analytics
SageMaker Comprehend Forecast Personalize Textract
일반 분석: SQL/Python
고급 분석: AI/ML
QuickSight
API Gateway
소비
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
대표적인 데이터 분석 워크로드 유형
OLTP ERP
CRM LOB
Data Warehouse Business
Intelligence
Data Lake
100110000100101011100101
010111001010100001011111
011010
0011110010110010110
0100011000010
Social
Devices
Web
Sensors
Machine
Learning
DW Queries
Big data
processing
Interactive
Real-time
Log analysis
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon S3 — 데이터레이크
보안과
컴플라이언스
3가지의 다른 형태의
암호화기능을 제공; 리전 간
전송시에도 데이터 암호화
전송; CloudTrail로 로그 및
모니터링하며, ML 기반
Macie 로 민감 데이터를
찾아내고 보호할 수 있음
유연한 관리
데이터 사용 트랜드를
분류,보고 및 시각화;
오브젝트에 태그를 붙여
스토리지 사용과 비용 및
보안을 확인가능; 보관기간 및
Tiering 을 자동화하는
수명주기관리 정책 작성
내구성, 가용성과
확장성
99.999999999%의 내구성
설계; 데이터는 AWS Region
내부에 3곳의 물리적 공간에
분산 저장됨; 자동으로 다른
AWS Region 에 복제 구성
가능
즉각적인 쿼리수행
데이터 이전 없이 DataLake
에서 분석 및 ML을 실행할 수
있음; S3 Select 를 사용해서
데이터의 하위 집합을
검색하고 분석 퍼포먼스를
400% 증가할 수 있음
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Lake - Amazon S3 설계 방식
Redshift EMR Athena
AI
Services
Tier-1: 원본 데이터
• 원본 데이터의 저장과 보관
• 최소한의 데이터 변환 작업만
• S3의 라이프사이클 기능 활용, S3-IA 또는 Glacier
Tier-2: 분석용 데이터
• Parquet / ORC 같은 컬럼방식 포멧의 사용
• 파티션 정책에 따라 분산 및 파티션 유지 관리
• 분석을 위한 최적화
Tier-3: 특정한 분석 목적 데이터 (optional)
• 도메인 레벨로 데이터마트 분리
• Use Case에 적합한 구성
• 특정 분석 방식에 적합한 데이터 변경 (ML, AI)
Data Lake
on AWS
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue 데이터 카탈로그
있는 그대로 저장한 데이터를 바로 분석하게 도와주는 핵심 서비스
Data Source : S3, JDBC 호환 Database
크롤러는 자동적으로 데이터 스키마를 찾아서 저장
데이터의 검색과 ETL 작업을 가능
테이블 스키마 정보와 컬럼 레벨 통계 정보를 포함
데이터 분포와 통계정보를 활용하여 쿼리 성능 향상
Glue
데이터 카탈로그
데이터를 탐색하여
스키마 정보 추출
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
가장 현실적인 분석 파이프라인 - 서버리스 애널리틱
빠르게 가성비 최고의 분석 환경 구축 가능
S3
Data lake
AWS Glue
(ETL & Data
Catalog)
Athena
Amazon
QuickSight
서버리스
인프라 구축 X
인프라 운영 X
작업이 돌지
않는 동안에는
비용이 제로
$
시스템 장애에
대한 걱정이
없는
사용 워크로드에
맞춰 자동적으로
리소스 확장
Kinesis
Devices Web Sensors Social
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Amazon Athena — 대화식 분석
표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스
설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음
Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음
즉각적인 Query
셋업 비용이 들지 않음;
S3를 바로 지정하고
쿼리를 수행하면 됨
SQL
개방
ANSI SQL 인터페이스,
JDBC/ODBC 드라이버,
다양한 포멧, 압축 유형,
복잡한 조인 및 데이터
타입
손쉬운 사용
서버리스: 인프라 없음,
관리 불필요
QuickSight 와 통합
Query 당 비용
쿼리 실행에 대해서만
지불; 압축을 통해서
쿼리당 30–90% 비용
절감 가능
$
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue ETL - Apache Spark 기반 데이터 처리
확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스
서버리스 데이터 변환작업
Apache Spark 기반
클릭 몇번으로 생성되는 ETL code
수정 / 추가가 가능한 PySpark과 Scala 코드
반복 일정과 이벤트에 따른 Job 스케줄링
Jupyter, Zeppelin, PyCharm 등 익숙한 환경에서
수정, 디버그, 테스트가 가능하도록 Dev
Endpoint 제공
Sample ETL Codes : https://github.com/awslabs/aws-glue-samples
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Glue ETL - Apache Spark 기반 데이터 처리
확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스
Dev Endpoint를 통해 Jupyter Notebook, Apache Zeppelin 을 쉽게 셋팅해서 즉시
데이터 가공, 탐색 분석이 가능
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
실시간 데이터 수집 - Amazon Kinesis Data Services
Collect, process, and analyze data streams in real time
Amazon
Elasticsearch
Service
SQL
EMR/Spark/
Amazon
SageMaker
Custom code
on EC2
Amazon S3
Amazon
Redshift
Splunk
Ingest
store data
streams
Kinesis Data
Streams
Kinesis Data
Analytics
Aggregate,
filter,
enrich data
Kinesis Data
Firehose
Egress data
streams
AWS Lambda
• Real-time
• Fully-managed
• Scalable
• Secure
• Cost-effective
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
로그 / 텍스트 분석을 위한 최상의 솔루션 - Amazon Elasticsearch
Amazon Elasticsearch Service는 완전 관리형 서비스이며, 쉽게 설치, 관리, 스케일 확장이
가능하며, Elasticsearch와 Kibana 연동을 통해 쉽게 분석과 시각화가 가능합니다.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
엔터프라이즈 규모의 Hadoop & Spark - Amazon EMR
Scale to any size
• Scale compute (EMR) &
storage (S3) independently
• Store, and process any
amount of data—PB to EBs
• Provision one, hundreds,
or thousands of nodes
• Auto-scaling
• Integrated with Spot
Instances
Data Lake
on AWS
Amazon EMR
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data warehouse를 Data Lake로 확장 - Amazon Redshift
Redshift Spectrum
query engine
Query across
Amazon Redshift
and Amazon S3
Amazon Redshift Data Lake
SensorsWebDevicesLOBCRMERPOLTP Social
구조화 된 데이터를 위해 빠른 응답 지원
대시 보드 및 보고서 개발을 위해 BI 도구 지원
세분화 된 엑세스 제어 기능 제공
DW와 data lake간의 joint 쿼리 지원
Lifecycle 관리를 위해 S3로 데이터 백업 지원
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
시각화를 넘어 ML을 이용한 분석 - Amazon QuickSight
모든 데이터 소스를 통해 즉시 시각화, 서버리스, ML Insights - 자동화된 ML 알고리즘 기반 분석
ML을 기반으로 한 이상 탐지
ML을 기반으로 한 예측
데이터를 설명 해주는
Auto-narratives
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Discover all the hidden trends and
anomalies on millions of metrics
Amazon QuickSight—ML Insights
Example: anomaly detection
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
QuickSight ML-powered forecasting Traditional BI forecasting
Captures seasonality and upward trends
Automatically excludes bad data
High confidence band
Captures only seasonality
Missing upward trend
Confidence band influenced by bad data
QuickSight ML Insights vs. traditional BI forecasting
VS.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
ML 알고리즘 선택 알고리즘 성능
최적화
반복적 학습 및
성능 향상
ML 학습을 위한
환경 설정 및 관리
모델 배포 배포된 서비스의
확장 및 생산성 관리
ML 개발, 훈련, 배포 모두를 지원 - Amazon SageMaker
Amazon SageMaker Built-in ML Algorithm
Amazon SageMaker는 속도와 큰 데이터 처리에 최적화된 다양한 Built-in ML
Algorithm 제공합니다.
Classification, Regression
• Linear Learner
• XGBoost
• Factorization Machines
• DeepAR
클러스터링, 차원축소
• K-Means
• PCA
Image Classfication
• Image Classifier (Resnet)
Natural language processing
• LDA, NTM (Topic modeling)
• Seq2Seq (Translation)
• BlazingText (Word2Vec)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
S3 데이터 레이크를 모델 훈련 및 배포에 사용 - Amazon SageMaker
완전 관리형 머신러닝 서비스
(손쉬운 머신 러닝 모델 생성/훈련/호스팅 배포)
Image Source: https://www.awsgeek.com/posts/Amazon-SageMaker/
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터 소스
AWS Data Lake 기반의 분석 파이프라인
OLTP ERP
CRM LOB
Social
Devices
Web
Sensors
수집
Kinesis
DataSync
Glue
IoT Core
Database Migration Service
Amazon S3/Glacier AWS Lake Formation AWS Glue
ETL & Catalog
Data Lake
저장
Athena EMRRedshift Elasticsearch Kinesis Data
Analytics
SageMaker Comprehend Forecast Personalize Textract
일반 분석: SQL/Python
고급 분석: AI/ML
QuickSight
API Gateway
소비
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
일반적인 Data Lake 구축 단계
데이터 활용 및 분석
데이터 프로세싱 및
카탈로그화
데이터 수집
보안 및 컴플라이언스
정책 설정
Permissions
S3 버킷 생성
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
Preview
Data
Catalog
Access
Control
CrawlersData import ML-based
data prepLake Formation
Amazon S3
Redshift EMR Athena
신속하게 Data Lake 구축
간편해진 보안 설정
데이터 검색 및 공유 향상
안전한 Data Lake를 신속하게 구축
데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리하고
ML transformation을 사용하여 데이터를 중복 제거할 수
있습니다.
Amazon EMR, Amazon Athena, Amazon Redshift
Spectrum, Amazon SageMaker 및 Amazon
QuickSight에서 테이블 및 컬럼 수준 데이터 액세스를
중앙에서 정의하고 이를 적용할 수 있습니다.
Lake Formation의 데이터 카탈로그를 사용하여
관련 데이터 세트를 쉽게 찾고 공유할 수 있는
메타데이터 기반 검색 기능을 제공합니다.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation
Build a secure data lake in days
Preview
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
반복되는 데이터 로딩 작업을 자동화
Loading Data
• Blueprints / Data Importers - 데이터 수집, 변환,
정제, 파티션 작업을 템플릿화 해서 자동화 설정
가능
• ML Transformations – 데이터의 중복, 유사 컬럼
매칭등의 변환 작업을 ML 알고리즘 기반으로 수행
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
데이터의 관리와 보안, 거버넌스 설정이 용이
Discoverability and Governance
• Enhanced governance layer - 데이터 카탈로그
레벨에서 보안과 거버넌스를 수행할 수 있게 함
• Enhanced Data Catalog - 테이블의 컬럼레벨까지
유저의 접근 권한을 설정 가능
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS Lake Formation 비용
별도의 추가 비용 없음 – Only pay for the
underlying services used (Glue, Athena, S3..)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Data Source Data Transform Data Analytics
실습 : Analytics Lab Architecture
OLTP
Web
Social
Amazon S3
(Sample
Source Data)
Glue Data catalog
Amazon S3
(Analytics Data)
AWS Glue
(Dev Endpoint)
Jupyter Notebook
Glue Data catalog
Data Catalog
Amazon QuickSight
Amazon Athena
Amazon SageMakerApache Zeppelin
Glue Crawler
https://bit.ly/2Rf5SWB
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Thank You for Attending AWS Innovate
We hope you found it interesting! A kind reminder to complete the survey.
Let us know what you thought of today’s event and how we can improve
the event experience for you in the future.
aws-apac-marketing@amazon.com
twitter.com/AWSCloud
facbook.com/AmazonWebServices
youtube.com/user/AmazonWebServices
slideshare.net/AmazonWebServices
twitch.tv/aws

More Related Content

있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 - 정세웅 애널리틱 스페셜리스트, AWS

  • 1. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 있는 그대로 저장하고, 바로 분석 가능한, 새로운 관점의 데이터 애널리틱 플랫폼 정세웅, Anlaytics Solutions Architect, AWS
  • 2. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Agenda  데이터레이크  데이터레이크 설계 및 구축  데이터레이크 활용 및 확장  AWS Lake Formation
  • 3. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 4. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 플랫폼의 목적과 가치 Next-gen Data Platform 데이터를 모두 한 곳에 모으�� 어떤 종류의 데이터든 수집과 저장 실시간, 배치성 데이터의 처리 데이터 탐색에 서 시각화, ML 까지 확장 확장 고민 없이 무제한 사용하는 리소 스 다양한 유형의 소비자에게 데이터 제공
  • 5. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS의 데이터 레이크, 데이터 수집, 분석에서 ML까지 Amazon SageMaker AWS Deep Learning AMIs Amazon Rekognition Amazon Lex AWS DeepLens Amazon Comprehend Amazon Translate Amazon Transcribe Amazon Polly Amazon Athena Amazon EMR Amazon Redshift Amazon Elasticsearch service Amazon Kinesis Amazon QuickSight Analytics Machine Learning AWS Direct Connect AWS Snowball AWS Snowmobile AWS Database Migration Service AWS IoT Core Amazon Kinesis Data Firehose Amazon Kinesis Data Streams Amazon Kinesis Video Streams Real-time Data Movement On-premises Data Movement Data Lake on AWS Storage | Archival Storage | Data Catalog Amazon S3 | AWS Glue
  • 6. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data Lake를 통해 전통적인 DW를 확장 Data Warehouse Business Intelligence OLTP ERP CRM LOB • 다양한 유형의 정형, 비정형 데이터 저장 • TBs–EBs scale • 인사이트를 얻기 위해 다양한 분석 엔진 • 낮은 비용으로 저장과 분석이 가능 Devices Web Sensors Social Big Data processing, real-time, Machine Learning Data Lake
  • 7. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 소스 AWS Data Lake 기반의 분석 파이프라인 OLTP ERP CRM LOB Social Devices Web Sensors 수집 Kinesis DataSync Glue IoT Core Database Migration Service Amazon S3/Glacier AWS Lake Formation AWS Glue ETL & Catalog Data Lake 저장 Athena EMRRedshift Elasticsearch Kinesis Data Analytics SageMaker Comprehend Forecast Personalize Textract 일반 분석: SQL/Python 고급 분석: AI/ML QuickSight API Gateway 소비
  • 8. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 9. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 대표적인 데이터 분석 워크로드 유형 OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 100110000100101011100101 010111001010100001011111 011010 0011110010110010110 0100011000010 Social Devices Web Sensors Machine Learning DW Queries Big data processing Interactive Real-time Log analysis
  • 10. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon S3 — 데이터레이크 보안과 컴플라이언스 3가지의 다른 형태의 암호화기능을 제공; 리전 간 전송시에도 데이터 암호화 전송; CloudTrail로 로그 및 모니터링하며, ML 기반 Macie 로 민감 데이터를 찾아내고 보호할 수 있음 유연한 관리 데이터 사용 트랜드를 분류,보고 및 시각화; 오브젝트에 태그를 붙여 스토리지 사용과 비용 및 보안을 확인가능; 보관기간 및 Tiering 을 자동화하는 수명주기관리 정책 작성 내구성, 가용성과 확장성 99.999999999%의 내구성 설계; 데이터는 AWS Region 내부에 3곳의 물리적 공간에 분산 저장됨; 자동으로 다른 AWS Region 에 복제 구성 가능 즉각적인 쿼리수행 데이터 이전 없이 DataLake 에서 분석 및 ML을 실행할 수 있음; S3 Select 를 사용해서 데이터의 하위 집합을 검색하고 분석 퍼포먼스를 400% 증가할 수 있음
  • 11. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data Lake - Amazon S3 설계 방식 Redshift EMR Athena AI Services Tier-1: 원본 데이터 • 원본 데이터의 저장과 보관 • 최소한의 데이터 변환 작업만 • S3의 라이프사이클 기능 활용, S3-IA 또는 Glacier Tier-2: 분석용 데이터 • Parquet / ORC 같은 컬럼방식 포멧의 사용 • 파티션 정책에 따라 분산 및 파티션 유지 관리 • 분석을 위한 최적화 Tier-3: 특정한 분석 목적 데이터 (optional) • 도메인 레벨로 데이터마트 분리 • Use Case에 적합한 구성 • 특정 분석 방식에 적합한 데이터 변경 (ML, AI) Data Lake on AWS
  • 12. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue 데이터 카탈로그 있는 그대로 저장한 데이터를 바로 분석하게 도와주는 핵심 서비스 Data Source : S3, JDBC 호환 Database 크롤러는 자동적으로 데이터 스키마를 찾아서 저장 데이터의 검색과 ETL 작업을 가능 테이블 스키마 정보와 컬럼 레벨 통계 정보를 포함 데이터 분포와 통계정보를 활용하여 쿼리 성능 향상 Glue 데이터 카탈로그 데이터를 탐색하여 스키마 정보 추출
  • 13. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 가장 현실적인 분석 파이프라인 - 서버리스 애널리틱 빠르게 가성비 최고의 분석 환경 구축 가능 S3 Data lake AWS Glue (ETL & Data Catalog) Athena Amazon QuickSight 서버리스 인프라 구축 X 인프라 운영 X 작업이 돌지 않는 동안에는 비용이 제로 $ 시스템 장애에 대한 걱정이 없는 사용 워크로드에 맞춰 자동적으로 리소스 확장 Kinesis Devices Web Sensors Social
  • 14. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Amazon Athena — 대화식 분석 표준SQL을 사용해서 Amazon S3의 데이터를 분석하는 대화식 쿼리 서비스 설정 및 관리해야 할 인프라도 없으며, 로드 해야할 데이터도 없음 Amazon Glacier 에 보관된 데이터에 대해 SQL 쿼리를 실행할 수 있음 즉각적인 Query 셋업 비용이 들지 않음; S3를 바로 지정하고 쿼리를 수행하면 됨 SQL 개방 ANSI SQL 인터페이스, JDBC/ODBC 드라이버, 다양한 포멧, 압축 유형, 복잡한 조인 및 데이터 타입 손쉬운 사용 서버리스: 인프라 없음, 관리 불필요 QuickSight 와 통합 Query 당 비용 쿼리 실행에 대해서만 지불; 압축을 통해서 쿼리당 30–90% 비용 절감 가능 $
  • 15. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue ETL - Apache Spark 기반 데이터 처리 확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스 서버리스 데이터 변환작업 Apache Spark 기반 클릭 몇번으로 생성되는 ETL code 수정 / 추가가 가능한 PySpark과 Scala 코드 반복 일정과 이벤트에 따른 Job 스케줄링 Jupyter, Zeppelin, PyCharm 등 익숙한 환경에서 수정, 디버그, 테스트가 가능하도록 Dev Endpoint 제공 Sample ETL Codes : https://github.com/awslabs/aws-glue-samples
  • 16. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Glue ETL - Apache Spark 기반 데이터 처리 확장성과 비용 효율성, 편의성을 갖춘 Data Transform 서비스 Dev Endpoint를 통해 Jupyter Notebook, Apache Zeppelin 을 쉽게 셋팅해서 즉시 데이터 가공, 탐색 분석이 가능
  • 17. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 18. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 실시간 데이터 수집 - Amazon Kinesis Data Services Collect, process, and analyze data streams in real time Amazon Elasticsearch Service SQL EMR/Spark/ Amazon SageMaker Custom code on EC2 Amazon S3 Amazon Redshift Splunk Ingest store data streams Kinesis Data Streams Kinesis Data Analytics Aggregate, filter, enrich data Kinesis Data Firehose Egress data streams AWS Lambda • Real-time • Fully-managed • Scalable • Secure • Cost-effective
  • 19. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T 로그 / 텍스트 분석을 위한 최상의 솔루션 - Amazon Elasticsearch Amazon Elasticsearch Service는 완전 관리형 서비스이며, 쉽게 설치, 관리, 스케일 확장이 가능하며, Elasticsearch와 Kibana 연동을 통해 쉽게 분석과 시각화가 가능합니다.
  • 20. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 엔터프라이즈 규모의 Hadoop & Spark - Amazon EMR Scale to any size • Scale compute (EMR) & storage (S3) independently • Store, and process any amount of data—PB to EBs • Provision one, hundreds, or thousands of nodes • Auto-scaling • Integrated with Spot Instances Data Lake on AWS Amazon EMR
  • 21. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data warehouse를 Data Lake로 확장 - Amazon Redshift Redshift Spectrum query engine Query across Amazon Redshift and Amazon S3 Amazon Redshift Data Lake SensorsWebDevicesLOBCRMERPOLTP Social 구조화 된 데이터를 위해 빠른 응답 지원 대시 보드 및 보고서 개발을 위해 BI 도구 지원 세분화 된 엑세스 제어 기능 제공 DW와 data lake간의 joint 쿼리 지원 Lifecycle 관리를 위해 S3로 데이터 백업 지원
  • 22. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 시각화를 넘어 ML을 이용한 분석 - Amazon QuickSight 모든 데이터 소스를 통해 즉시 시각화, 서버리스, ML Insights - 자동화된 ML 알고리즘 기반 분석 ML을 기반으로 한 이상 탐지 ML을 기반으로 한 예측 데이터를 설명 해주는 Auto-narratives
  • 23. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Discover all the hidden trends and anomalies on millions of metrics Amazon QuickSight—ML Insights Example: anomaly detection
  • 24. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. QuickSight ML-powered forecasting Traditional BI forecasting Captures seasonality and upward trends Automatically excludes bad data High confidence band Captures only seasonality Missing upward trend Confidence band influenced by bad data QuickSight ML Insights vs. traditional BI forecasting VS.
  • 25. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. ML 알고리즘 선택 알고리즘 성능 최적화 반복적 학습 및 성능 향상 ML 학습을 위한 환경 설정 및 관리 모델 배포 배포된 서비스의 확장 및 생산성 관리 ML 개발, 훈련, 배포 모두를 지원 - Amazon SageMaker
  • 26. Amazon SageMaker Built-in ML Algorithm Amazon SageMaker는 속도와 큰 데이터 처리에 최적화된 다양한 Built-in ML Algorithm 제공합니다. Classification, Regression • Linear Learner • XGBoost • Factorization Machines • DeepAR 클러스터링, 차원축소 • K-Means • PCA Image Classfication • Image Classifier (Resnet) Natural language processing • LDA, NTM (Topic modeling) • Seq2Seq (Translation) • BlazingText (Word2Vec)
  • 27. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. S3 데이터 레이크를 모델 훈련 및 배포에 사용 - Amazon SageMaker 완전 관리형 머신러닝 서비스 (손쉬운 머신 러닝 모델 생성/훈련/호스팅 배포) Image Source: https://www.awsgeek.com/posts/Amazon-SageMaker/
  • 28. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 29. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터 소스 AWS Data Lake 기반의 분석 파이프라인 OLTP ERP CRM LOB Social Devices Web Sensors 수집 Kinesis DataSync Glue IoT Core Database Migration Service Amazon S3/Glacier AWS Lake Formation AWS Glue ETL & Catalog Data Lake 저장 Athena EMRRedshift Elasticsearch Kinesis Data Analytics SageMaker Comprehend Forecast Personalize Textract 일반 분석: SQL/Python 고급 분석: AI/ML QuickSight API Gateway 소비
  • 30. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 일반적인 Data Lake 구축 단계 데이터 활용 및 분석 데이터 프로세싱 및 카탈로그화 데이터 수집 보안 및 컴플라이언스 정책 설정 Permissions S3 버킷 생성
  • 31. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Lake Formation Preview Data Catalog Access Control CrawlersData import ML-based data prepLake Formation Amazon S3 Redshift EMR Athena 신속하게 Data Lake 구축 간편해진 보안 설정 데이터 검색 및 공유 향상 안전한 Data Lake를 신속하게 구축 데이터를 보다 신속하게 이동, 저장, 카탈로그 및 정리하고 ML transformation을 사용하여 데이터를 중복 제거할 수 있습니다. Amazon EMR, Amazon Athena, Amazon Redshift Spectrum, Amazon SageMaker 및 Amazon QuickSight에서 테이블 및 컬럼 수준 데이터 액세스를 중앙에서 정의하고 이를 적용할 수 있습니다. Lake Formation의 데이터 카탈로그를 사용하여 관련 데이터 세트를 쉽게 찾고 공유할 수 있는 메타데이터 기반 검색 기능을 제공합니다.
  • 32. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Lake Formation Build a secure data lake in days Preview
  • 33. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 반복되는 데이터 로딩 작업을 자동화 Loading Data • Blueprints / Data Importers - 데이터 수집, 변환, 정제, 파티션 작업을 템플릿화 해서 자동화 설정 가능 • ML Transformations – 데이터의 중복, 유사 컬럼 매칭등의 변환 작업을 ML 알고리즘 기반으로 수행
  • 34. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. 데이터의 관리와 보안, 거버넌스 설정이 용이 Discoverability and Governance • Enhanced governance layer - 데이터 카탈로그 레벨에서 보안과 거버넌스를 수행할 수 있게 함 • Enhanced Data Catalog - 테이블의 컬럼레벨까지 유저의 접근 권한을 설정 가능
  • 35. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. AWS Lake Formation 비용 별도의 추가 비용 없음 – Only pay for the underlying services used (Glue, Athena, S3..)
  • 36. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
  • 37. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Data Source Data Transform Data Analytics 실습 : Analytics Lab Architecture OLTP Web Social Amazon S3 (Sample Source Data) Glue Data catalog Amazon S3 (Analytics Data) AWS Glue (Dev Endpoint) Jupyter Notebook Glue Data catalog Data Catalog Amazon QuickSight Amazon Athena Amazon SageMakerApache Zeppelin Glue Crawler https://bit.ly/2Rf5SWB
  • 38. © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. Thank You for Attending AWS Innovate We hope you found it interesting! A kind reminder to complete the survey. Let us know what you thought of today’s event and how we can improve the event experience for you in the future. aws-apac-marketing@amazon.com twitter.com/AWSCloud facbook.com/AmazonWebServices youtube.com/user/AmazonWebServices slideshare.net/AmazonWebServices twitch.tv/aws