본문 바로가기
AWS

[AWS] Glue vs DataPipeline vs DMS vs Kinesis

by yonikim 2021. 12. 8.
728x90

 

AWS Glue

  • 서버가 없는 Apache Spark 환경에서 실행되는 fully-managed ETL 서비스를 제공한다. 
  • 컴퓨팅 리소스 구성 및 관리에 대한 걱정 없이 ETL 작업에 집중할 수 있다. 
  • 데이터 우선 접근 방식이고, 비즈니스 인사이트를 도출할 수 있도록 데이터를 변환하기 위한 데이터 속성 및 조작에 초점을 맞춘다.
  • 아테나 및 스펙트럼을 통한 쿼리 뿐만 아니라 ETL 을 통해 메타데이터를 만들 수 있게끔 하는 통합 데이터 카탈로그를 제공한다.
  • Scala 혹은 Python 기반이다.
  • 스케일아웃 실행 환경을 제공한다.
  • Infers, evolves, 그리고 모니터링을 통해 작업 생성 및 유지관리 프로세스를 간소화한다.

 

AWS Data Pipeline

  • 관리형 오케스트레이션 서비스를 제공한다. 즉, 데이터 처리를 수행하는 코드 뿐만 아니라 코드를 수행하기 위해 필요한 컴퓨팅 리소스를 관리해주고 실행 환경 측면에서 뛰어난 유연성을 제공한다.
  • AWS 계정에서 EC2 인스턴스나 EMR 클러스터에 직접 접근하여 컴퓨팅 리소스를 설정해줄 수도 있다. 
  • Apache Spark 가 아닌 다른 엔진을 사용해야 하거나 Hive나 Pig 등과 같이 여러 다른 종류들로 이뤄진 엔진에서 실행할 때 사용하는 것이 좋다.

 

AWS Database Migration Service (DMS)

  • 데이터베이스를 AWS 로 쉽고 안전하게 마이그레이션 할 수 있다. 
  • 사내에서 AWS 로 데이터베이스 마이그레이션 또는 사내 소스와 AWS 소스 간 데이터베이스 복제가 필요한 경우 사용하는 것이 좋다. 
  • 데이터가 AWS 에 저장되면 해당 데이터 소스를 AWS Glue 를 사용하여 다른 데이터베이스나 데이터 웨어하우스로 이동하거나 변환할 수 있다.

 

Amazon Kinesis Data Analytics

  • 들어오는 데이터 스트림에서 표준 SQL 문을 실행할 수 있다. 
  • SQL 결과물을 S3 에 저장할 수 있다. 
  • 대상 데이터 소스를 사용할 수 있는 경우 AWS Glue ETL 작업을 통해 데이터를 추가로 변환하고 분석할 수 있다. 

 

728x90