728x90
AWS Glue
- 서버가 없는 Apache Spark 환경에서 실행되는 fully-managed ETL 서비스를 제공한다.
- 컴퓨팅 리소스 구성 및 관리에 대한 걱정 없이 ETL 작업에 집중할 수 있다.
- 데이터 우선 접근 방식이고, 비즈니스 인사이트를 도출할 수 있도록 데이터를 변환하기 위한 데이터 속성 및 조작에 초점을 맞춘다.
- 아테나 및 스펙트럼을 통한 쿼리 뿐만 아니라 ETL 을 통해 메타데이터를 만들 수 있게끔 하는 통합 데이터 카탈로그를 제공한다.
- Scala 혹은 Python 기반이다.
- 스케일아웃 실행 환경을 제공한다.
- Infers, evolves, 그리고 모니터링을 통해 작업 생성 및 유지관리 프로세스를 간소화한다.
AWS Data Pipeline
- 관리형 오케스트레이션 서비스를 제공한다. 즉, 데이터 처리를 수행하는 코드 뿐만 아니라 코드를 수행하기 위해 필요한 컴퓨팅 리소스를 관리해주고 실행 환경 측면에서 뛰어난 유연성을 제공한다.
- AWS 계정에서 EC2 인스턴스나 EMR 클러스터에 직접 접근하여 컴퓨팅 리소스를 설정해줄 수도 있다.
- Apache Spark 가 아닌 다른 엔진을 사용해야 하거나 Hive나 Pig 등과 같이 여러 다른 종류들로 이뤄진 엔진에서 실행할 때 사용하는 것이 좋다.
AWS Database Migration Service (DMS)
- 데이터베이스를 AWS 로 쉽고 안전하게 마이그레이션 할 수 있다.
- 사내에서 AWS 로 데이터베이스 마이그레이션 또는 사내 소스와 AWS 소스 간 데이터베이스 복제가 필요한 경우 사용하는 것이 좋다.
- 데이터가 AWS 에 저장되면 해당 데이터 소스를 AWS Glue 를 사용하여 다른 데이터베이스나 데이터 웨어하우스로 이동하거나 변환할 수 있다.
Amazon Kinesis Data Analytics
- 들어오는 데이터 스트림에서 표준 SQL 문을 실행할 수 있다.
- SQL 결과물을 S3 에 저장할 수 있다.
- 대상 데이터 소스를 사용할 수 있는 경우 AWS Glue ETL 작업을 통해 데이터를 추가로 변환하고 분석할 수 있다.
728x90
'AWS' 카테고리의 다른 글
[API Gateway] REST API 를 Amazon S3 프록시로 생성 (0) | 2022.01.11 |
---|---|
[Lambda] API Gateway + Lambda 를 이용하여 S3 에 이미지 업로드 (0) | 2021.12.20 |
[ECS] AWS ECS 세팅하기 - 3. 서비스 생성 - 블루/그린 배포 2 (0) | 2021.09.12 |
[ECS] AWS ECS 세팅하기 - 3. 서비스 생성 - 블루/그린 배포 1 (0) | 2021.09.08 |
[AWS] 서버리스 애플리케이션을 위한 AWS 메시징 서비스와 아키텍처 구현 패턴 (0) | 2021.07.30 |