본문 바로가기
클라우드 및 인프라/AWS

[aws] Glue 사용법 (데이터 카탈로그)

by 작은소행성 2021. 7. 23.

Glue 란

완전 관리형 추출, 변환 및 로드 (ETL)  서비스이다. 

여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동한다. 

 

 

 

 

S3 -> Glue -> Glue Studio

 

 

 

 

 

 

 

 

 .데이터베이스

데이터베이스를 생성한다. 

 

. 테이블

직접 생성할 수도 있고, 크롤러를 사용해 테이블 추가도 가능하다. 

 

.  연결

redshift와 postgresql의 경우 연결해줘야지 사용가능하다.

 

. 크롤러

데이터 스토어에 연결해 우선순위가 지정된 분류자의 목록을 기준으로 데이터의 스키마를 결정한 다음 데이터 카탈로그에 메타데이터 테이블을 생성한다

 

 

. 워크플로

트리거에 감시되는 이벤트와 작업을 정의해 워크플로우를 구축한다.

 

 

. 트리거

워크플로에서 생성된 트리거를 확인할 수 있다.

 

 

 

 

 

 

 

 

 

 

데이터베이스 생성하기

  • 데이터베이스 추가하기 버튼을 누르고 이름만 작성해주면 데이터베이스는 바로 생성된다.

 

 

 

 

데이터베이스 연결하기

  • 연결이름 적고 연결 유형을 선택해준다.

 

 

 

  • 나의 경우 JDBC로 설정해서 그에 맞는 내용을 입력해주면 된다. 

 

 

 

 

크롤러 생성하기

  • 크롤러 이름을 설정한다.

 

  •  Specify crawler source type은 기본 defult 설정으로 했다. 

 

 

  •  데이터 스토어를 추가한다. 

데이터 스토어에는 S3, JDBC, DynamoDB, Amazon DocumentDB, MongoDB 가 있습니다. 

본인이 사용하시는 데이터를 선택하면 됩니다. 

 

 

  •  다른 데이터 스토어를 추가하지 않고 넘어간다. 

 

  • IAM 역할을 선택해줍니다. 

 

 

  •  빈도는 온디맨드로 실행하거나 원하는 시간을 선택해서 사용할 수도 있다. 

 

 

  •  크롤러의 출력 구성

데이터베이스를 선택하고 접두사를 적으면 테이블 생성시 설정한 접두사를 포함해서 테이블이 생성된 것을 확인할 수 있다.

 

 

  • 모든 단계검토를 마치고 크롤러에 보면 크롤러가 생성된 것을 확인할 수 있다. 
  •  온디멘드로 설정한 경우 크롤러를 선택해서 크롤러 실행버튼을 클릭하면 테이블이 생성된다.

반응형