Glue 란
완전 관리형 추출, 변환 및 로드 (ETL) 서비스이다.
여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동한다.
S3 -> Glue -> Glue Studio
.데이터베이스
데이터베이스를 생성한다.
. 테이블
직접 생성할 수도 있고, 크롤러를 사용해 테이블 추가도 가능하다.
. 연결
redshift와 postgresql의 경우 연결해줘야지 사용가능하다.
. 크롤러
데이터 스토어에 연결해 우선순위가 지정된 분류자의 목록을 기준으로 데이터의 스키마를 결정한 다음 데이터 카탈로그에 메타데이터 테이블을 생성한다
. 워크플로
트리거에 감시되는 이벤트와 작업을 정의해 워크플로우를 구축한다.
. 트리거
워크플로에서 생성된 트리거를 확인할 수 있다.
데이터베이스 생성하기
- 데이터베이스 추가하기 버튼을 누르고 이름만 작성해주면 데이터베이스는 바로 생성된다.
데이터베이스 연결하기
- 연결이름 적고 연결 유형을 선택해준다.
- 나의 경우 JDBC로 설정해서 그에 맞는 내용을 입력해주면 된다.
크롤러 생성하기
- 크롤러 이름을 설정한다.
- Specify crawler source type은 기본 defult 설정으로 했다.
- 데이터 스토어를 추가한다.
데이터 스토어에는 S3, JDBC, DynamoDB, Amazon DocumentDB, MongoDB 가 있습니다.
본인이 사용하시는 데이터를 선택하면 됩니다.
- 다른 데이터 스토어를 추가하지 않고 넘어간다.
- IAM 역할을 선택해줍니다.
- 빈도는 온디맨드로 실행하거나 원하는 시간을 선택해서 사용할 수도 있다.
- 크롤러의 출력 구성
데이터베이스를 선택하고 접두사를 적으면 테이블 생성시 설정한 접두사를 포함해서 테이블이 생성된 것을 확인할 수 있다.
- 모든 단계검토를 마치고 크롤러에 보면 크롤러가 생성된 것을 확인할 수 있다.
- 온디멘드로 설정한 경우 크롤러를 선택해서 크롤러 실행버튼을 클릭하면 테이블이 생성된다.
반응형