DW&BI

[DW&BI] 제 1장 : DW/BI 아키텍처(Architecture)

Jerry Jun 2022. 6. 20. 18:00
728x90

제 1장 : DW/BI Architecture

DW/BI 환경에서 고려해야 할 개별 구성 요소에는 크게 4가지가 있다.

  • 운영계 원천 시스템
  • ETL 시스템
  • 프레젠테이션 영역
  • BI 애플리케이션

이 4가지에 대해 간단히 요약하여 알아보자.

 

# 운영계 원천 시스템

 원천 시스템의 중요한 우선순위는 처리 성능과 가용성이다. 원천 시스템에 대한 운영 쿼리들은 정상적인 트랜잭션 흐름에서 1회 1레코드 쿼리이며, 운영 시스템에서 엄격히 제한된다. 원천 시스템에서는 DW/BI 시스템에서처럼 광범위하고 예상치 못한 방법으로 쿼리를 하지 않는다고 생각하는 것이 옳다.

 

# ETL 시스템

DW/BI 환경에서 추출, 변환, 적재 시스템은 작업 영역, 데이터 구조, 프로세스 집합으로 구성된다. ETL 시스템은 운영계 원천 시스템과 DW/BI 영역 사이의 모든 것이다.

 

  • 추출 : DW 환경에서 데이터를 가져오는 첫 번째 과정이다. 원천 데이터를 읽고 이해하며, 추가적인 가공을 위해 필요한 데이터를 복사하는 것을 의미한다. 이 시점에서, 데이터는 DW 에 속하게 된다.
  • 변환 : 데이터 정제(오류 글자 수정, 누락 항목 처리, 포맷 맞추기 등)와 중복 제거 등의 과정이다. 이러한 표준화 작업을 통해 데이터의 가치를 증대시키며, 품질을 향상시킨다.
  • 적재 : 다차원 모델에 데이터를 적재하고 물리적으로 구성하는 단계이다. 적합한 데이터 값을 보여주는 컬럼 분리 및 통합, 제 3정규화 테이블 구조를 평평한 반정규화 디멘션으로 조인하기와 같은, 디멘션 테이블 처리에 초점을 둔다.

# 프레젠테이션 영역

DW/BI 프레젠테이션 영역은 데이터가 구성, 저장되고 사용자 및 리포트 작성자가 BI에 의해 직접적인 쿼리가 가능하도록 만들어지는 곳이라 볼 수 있다. ETL 시스템은 접근이 제한되기 때문에, 사용자 입장에서 DW/BI 환경은 곧 프레젠테이션 영역이다. 이 영역은 사용자가 툴과 BI를 통해 조회하고 조작해보는 것이 전부이다.

 

# BI 애플리케이션

쉽게 말해, 비즈니스 사용자들이 분석적 의사결정을 위해 프레젠테이션 영역을 활용하도록 기능을 제공해주는 것을 말한다. 모든 BI 애플리케이션은 DW/BI 프레젠테이션 영역의 데이터를 쿼리한다. 여기에서 말하는 쿼리란 향상된 의사결정을 위해 데이터를 사용하는 것을 말한다.


지금까지의 내용은 참고 도서의 저자인 랄프 킴벌의 아키텍쳐에 관련한 내용이었다.

이제부터는 다른 DW/BI 아키텍쳐에 대해 이야기해보자.

 

[1] 독립적 데이터 마트 아키텍쳐

독립적 데이터 마트 아키텍쳐

 해당 아키텍쳐는 전사적으로 정보를 공유하고 통합하는 초점이 아닌 부서 기준으로 만들어진다. 일반적으로 하나의 부서가 운영 원천 시스템으로부터의 데이터 요구 사항을 정의한다. 특정 부서는 그 부서의 니즈를 충족하는 비즈니스 규칙과 기본 레이블이 부여된 DB를 IT 직원 혹은 외부 컨설턴트의 도움으로 구축한다. 독립적으로 운영되는 부서의 데이터 마트는 특정 부서의 분석 요구 사항을 해결해준다.

 

 이러한 개별적 분석 환경은 단기적, 상대적으로 낮은 비용으로 빠른 개발을 가능하게 하는 가장 저항이 적은 방법이다. 하지만 참고 도서에서는 이 방식을 강력히 반대한다. 그런데도 굳이 쓰는 경우는 데이터 전달에 있어 비즈니스 사용자가 이해하기 쉽게 빠른 쿼리 응답이 가능하기 때문이다. 

 

 

[2] 인몬의 Hub and Spoke 기업 정보 공장(CIF) 아키텍처

CIF 아키텍처

 해당 아키텍처는 빌 인몬과 업계 여러 사람들에 의해 주창되었다.

CIF에서 데이터는 원천 운영 시스템으로부터 추출되고 ETL 처리된다. 이 처리로부터 나온 최소단위 데이터는 3차 정규화 데이터베이스에 적재된다. 이 정규화된 최소단위 저장소는 CIF 아키텍처에서 EDW(전사 데이터 웨어하우스)라 부른다. 킴벌 아키텍쳐는 ETL 처리를 위해 선택적으로 정규화를 허용하지만, CIF에서 정규화된 EDW는 필수 구조이다. CIF는 정규화된 EDW가 이 역할을 수행하고, 킴벌 아키텍처는 표준 디멘션을 갖는 전사 버스의 중요성을 강조한다.

 

 

[3] Hub and Spoke 와 킴벌 하이브리드 아키텍처

하이브리드 아키텍처

킴벌과 인몬 CIF 아키텍처의 결합으로 볼 수 있다. 그림과 같이 CIF 중심으로 EDW를 생성하되 분석과 리포팅을 원하는 사용자의 접근은 금지한다. 사용자 쿼리는 전적으로 프리젠테이션 영역에서 처리하여 3차 정규화 EDW의 성능과 활용성 문제를 해결하면서 기존에 투자된 통합 저장소를 활용할 수 있다. 

 

 이러한 아키텍처를 처음부터 시작하는 경우는 개발과 유지 보수 측면에서 시간과 비용이 많이 소비될 것이다. 왜냐하면 최소 단위 데이터가 중복적으로 저장되고 이동되기 때문이다. 

 

 

 

300x250