멀티 클라우드 환경의 데이터 활용 가치 극대화

[컴퓨터월드] 현재 기업 IT 환경에서 폭증하는 데이터를 효율적으로 보관하기 위한 저장소로서 클라우드 도입이 증가하고 있다. 특히 워크로드의 특성 및 비용을 고려, 여러 벤더들의 클라우드 서비스를 혼합해 사용하는 멀티 클라우드 방식이 확산되고 있다. 이에 다양한 클라우드 환경을 사용해 자사의 데이터 중심 비즈니스의 성과를 높이고자 하는 기업들은 분산된 데이터를 적시에 알맞은 용도로 활용할 수 있도록 지원하는 솔루션에 주목하고 있다. <편집자 주>

 
효성인포메이션시스템은 ‘펜타호(Pentaho)’를 통해 레거시 환경과 클라우드 환경을 연계, 비정형 및 정형 데이터 등 모든 유형의 데이터를 완벽하게 활용하도록 돕는 통합 데이터 분석 솔루션을 제공한다. ‘펜타호’는 100% GUI(그래픽유저인터페이스) 기반의 간편한 환경에서 데이터 수집 및 통합부터 머신러닝 모델 구축, 모델 기반 고급 분석, 모델 업그레이드, 시각화 및 리포팅 등을 모두 제공하는 빅데이터 분석 플랫폼이다.

‘펜타호’는 ▲SQL 작성 또는 코딩이 필요 없는 데이터의 추출, 변환 및 적재(ETL: Extract, Transform and Load)와 머신러닝 기반 분석을 지원하는 데이터 통합 솔루션 ‘PDI(Pentaho Data Integration)’ 및 ▲비즈니스 인텔리전스(Business Intelligence, BI), 인터랙티브 분석, 맞춤형 시각화 및 리포팅 기능을 탑재한 데이터 분석 솔루션 ‘PBA(Pentaho Business Analytics)’로 구성돼 있다. 이러한 솔루션들을 통해 <그림 1>과 같은 빅데이터 분석의 5단계를 수행할 수 있다.

▲ 단일한 워크플로우로 구현되는 ‘펜타호’ 데이터 처리 및 분석 플랫폼

빅데이터 통합 및 분석 솔루션 ‘펜타호’를 통해 기업들은 온프레미스 및 클라우드 등 모든 환경에 ‘펜타호’를 쉽게 배포하고, 이를 통해 데이터 통합, 분석 및 시각화를 수행할 수 있다. ‘펜타호’는 모든 데이터 소스를 수집할 수 있으며, 이는 플랫(flat) 파일, 관계형 데이터베이스 관리 시스템(RDBMS), 빅데이터, API 등을 포함한다.

또한 ‘펜타호’는 R, 파이썬, 스파크(Spark), MLlib 및 웨카(Weka) 등 오픈소스 도구를 이용해 분석 모델을 개발하고, 이러한 모델을 기반으로 고급 분석을 수행할 수 있다. 다양한 포맷의 리포트 및 맞춤형 대시보드를 생성해 분석 결과를 실시간으로 보고하며, 애플리케이션 및 써드파티 소프트웨어로의 유연한 임베딩으로 분석을 위한 애플리케이션 수를 줄이면서 보다 풍부한 분석 결과를 도출한다. ‘펜타호’ 플랫폼의 각 솔루션별 기능과 장점은 다음과 같다.

▲ ‘펜타호’의 빅데이터 통합 및 분석 프로세스

빅데이터 처리 및 분석의 민첩성, 유연성 및 개방성 높이는 ‘PDI’

1. 멀티 클라우드 환경에 걸친 효율적인 빅데이터 처리 및 분석

‘PDI(Pentaho Data Integration)’는 이기종 환경의 복잡한 데이터 소스들에 접근할 수 있으며, 이를 분석에 적합한 형태로 변환하는 데이터 플로우를 설계한다. 정형 데이터뿐 아니라 텍스트, 음성, 이미지, 영상 등 비정형 데이터를 효율적으로 변환할 수 있도록 메타데이터 인젝션(Metadata Injection) 기능을 제공한다. 이는 단일한 변환 템플릿을 정의하고, 속성 파일 및 데이터베이스 테이블에 대한 메타데이터를 활용해 런타임을 변화시켜 개발자들의 민첩성과 생산성을 대폭 높인다.

또한 카프카(Kafka) 스트림에 대한 연결로 실시간 데이터에 대한 빠른 접근과 처리가 가능하며, ‘펜타호’의 적응형 실행 계층(adaptive execution layer)이 지원하는 하둡(Hadoop) 에코시스템 내의 처리 엔진으로 데이터 통합 작업을 수행한다. 추가 노드를 불러오고 가용 리소스에 걸쳐 워크로드를 분산시켜 클라우드 및 온프레미스 환경 간 유연성, 이동성 및 신속하고 효율적인 처리를 보장한다.

특히 아마존웹서비스(AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드(Google Cloud)에 대한 지원을 통해 온프레미스 및 클라우드 환경 간 원활한 데이터 이동 및 분석을 지원한다.


2. 머신러닝 기반의 민첩한 분석

‘PDI’는 오픈소스 머신러닝 툴을 포함한 DSP(Data Science Pack)를 제공한다. ‘펜타호’의 GUI 환경에서 사용자들은 드래그 앤 드롭만으로 머신러닝 기술이 접목된 분석 라이브러리를 적용해 모델을 개발하고, 테스트를 거쳐 최적의 결과를 도출하는 모델을 선택할 수 있다. 모델 개발 시 데이터세트에 대한 상호검증(Cross-validation)과 개발된 모델에 대한 검증으로 높은 신뢰도 보장이 가능하다. 이러한 머신러닝 알고리즘 기반의 모델 개발은 코딩 또는 스크립팅 작업 없이 이뤄져 데이터 준비 작업에 대한 기업들의 부담을 크게 줄여준다.

빠르게 변화하는 비즈니스 환경에서는 데이터 업데이트에 따라 모델을 실시간으로 업그레이드함으로써 비즈니스 민첩성을 강화해야 한다. 이를 위해 ‘펜타호’는 새로운 데이터 적재에 따른 모델 업그레이드를 워크플로우로 생성하고 자동화하여 데이터의 실시간 변화에 따라 최상의 정확도를 지닌 모델로 신속하게 개선할 수 있도록 한다.

▲ ‘PDI’ 솔루션의 특징


데이터 기반의 실시간 의사결정 과정 돕는 ‘PBA’

‘PBA(Pentaho Business Analytics)’는 정형 및 비정형 데이터에 대한 예측 등의 고급 분석 기능을 제공할 뿐 아니라, 시각화 및 리포팅을 위한 인터랙티브 웹 인터페이스를 통해 인사이트를 실시간으로 공유 및 업데이트할 수 있도록 한다.

다양한 차원의 데이터 분석을 위해 지리적 맵, 히트 그리드, 버블 차트 등의 시각화 라이브러리를 지원하며, 생각의 속도만큼 빠른 분석을 위한 드래그앤드롭 및 세부적인 정보를 얻기 위한 드릴다운 기능을 제공한다.

모바일 환경도 지원해 간단한 터치와 드래그앤드롭만으로 데이터 발견, 인터랙티브 분석 및 시각화가 가능하다. 또한, 모든 애플리케이션에 분석, 데이터 시각화, 인터랙티브 리포팅, 애드혹 분석 및 맞춤형 대시보드를 임베딩해 다양한 애플리케이션에서 생성되는 풍부한 인사이트를 기반으로 의사결정을 내릴 수 있도록 지원한다.

또한 멀티 클라우드 환경에서 기업들의 데이터 관리를 보다 간소화하는 기능들로는 안전한 분석, 콘텐츠 버저닝(데이터가 감염되거나 훼손될 경우 이를 정상적인 파일로 되돌리는 기능), 잠금(locking) 및 삭제 등이 있다.

▲ ‘PBA’ 솔루션의 특징


멀티 클라우드 환경의 데이터 처리 기능이 향상된 ‘펜타호 8.1’

‘펜타호 8.1’을 통해 효성인포메이션시스템은 하이브리드 및 멀티 클라우드 환경에 원활하게 연결해 데이터를 처리할 수 있도록 지원한다. 기존의 AWS 및 마이크로소프트 애저(Microsoft Azure)에 대한 지원에 이어, 최신 버전의 ‘펜타호’는 구글 클라우드 플랫폼(Google Cloud Platform)에 대한 지원이 새롭게 추가돼, 기업들의 퍼블릭 클라우드에 대한 선택권을 대폭 확장시킨다. 기업들의 멀티 클라우드 지원 전략을 위해 ‘펜타호 8.1’이 제공하는 신기능들은 다음과 같다.

● 멀티 클라우드 스토리지 환경에서의 데이터 관리
● 구글 빅쿼리(Google BigQuery)로의 대량 데이터 적재
● 구글 빅쿼리를 통한 데이터 시각화 및 분석
● 클라우드 환경으로의 유연한 ‘펜타호’ 구축, 워크로드에 따른 스케일 업 및 다운
● 아마존 EMR(Amazon Elastic MapReduce) 클라우드 환경에서 스파크 활용을 통한 데이터 처리
● 구글 드라이브의 파일 다운로드 및 적재

기업들이 멀티 클라우드 환경의 모든 데이터에서 비즈니스에 유용한 가치를 도출하기 위해서는 기업 내외부에 산재한 데이터의 분류, 통합, 조정, 분석의 과정을 거쳐야 한다. 또한 데이터 수집, 통합, 분석, 시각화, 리포팅에 이르는 과정을 단일할 시스템에서 수행할 때만이 분절된 프로세스와 솔루션으로 인한 비효율성을 제거할 수 있다.

‘펜타호’는 클라우드 및 온프레미스 환경의 다양한 비정형 데이터 및 정형 데이터를 통합하고, 머신러닝 기술을 접목해 실시간으로 처리할 수 있으며, 실시간 리포팅을 통해 멀티 클라우드 환경에서도 비용효율적인 데이터 관리 및 의사결정 프로세스를 지원한다.

기업들은 ‘펜타호’를 활용해 별도의 인프라 구축 없이도 방대한 양의 데이터 처리를 위한 저장소와 모델을 구축하고 이를 향상시켜, 시시각각 변화하는 데이터를 보다 유연하게 활용해 비즈니스를 향상시킬 수 있을 것이다.

▲ ‘펜타호’ 플랫폼의 특장점

저작권자 © 아이티데일리 무단전재 및 재배포 금지