구글 클라우드, 빅데이터 분석을 현대화하다

레거시 데이터웨어하우스·컨테이너 기반 머신러닝 모두 'OK'

컴퓨팅입력 :2019/11/19 14:44    수정: 2019/11/20 14:10

기업들이 디지털 트랜스포메이션 실현을 위해 비즈니스 데이터를 활용해 가치를 얻는 방안을 모색하고 있지만 기존 IT 인프라의 제약에 발목을 잡히는 경우가 많다. 조직에서 데이터를 처리하고 분석할 수 있는 가용 자원에 상한선이 있기 때문이다. 현업에서 실제 활용하고자 하는 데이터는 지수적으로 증가하는 반면 IT 인프라 담당 부서는 비용통제 압력을 받거나 잘 해 봐야 현상유지를 해야 하는 처지다.

[사진=구글]

구글 클라우드 플랫폼(GCP)을 통해 제공되는 퍼블릭 클라우드 서비스 기반 데이터 분석 도구와 솔루션은 이런 비즈니스 담당자와 IT 담당자 양쪽의 고민을 덜어 준다. 기업은 GCP 기술의 이점을 살려 컨테이너 애플리케이션 개발과 배포 시나리오를 염두에 둔 현대적 IT 인프라에서 새로운 비즈니스 가치를 얻을 수도, 기존 IT 인프라에 쌓아 놓은 데이터웨어하우스(DW)의 데이터를 더 효율적으로 활용할 수도 있다.

GCP의 장점을 극대화한 제품으로 클라우드 기반의 완전 관리형 DW 제품인 '빅쿼리(BigQuery)'가 꼽힌다. 구글이 소비자 대상 서비스를 개선하기 위해 데이터를 수집하고 분석할 목적으로 만들어 내부에서 활용해 오던 기술을 상용화한 결과물이다. 설계 구조상 데이터를 보관하기 위한 스토리지 영역과 분석 연산을 수행하는 노드가 분리돼 있어, 비용만 내면 제약 없는 저장용량과 성능 확장성을 얻을 수 있다.

공개된 한국 기업 사례를 보면 이미 넷마블, 쏘카, 와이더플래닛 등이 빅쿼리를 온프레미스 DW의 효율적인 대안으로 활용 중이고, 현대적 인프라의 확장성과 이용 편의성을 통해 더 나은 비즈니스 성과를 도출하고 있다. 이들은 빅쿼리 도입에 더해 확장성과 민첩성을 요구하는 비즈니스 혁신에 AI 시스템을 접목하기도 했다. 일부 기업은 컨테이너와 같은 차세대 인프라 기술의 이점을 얻는 데 관심을 보이기도 한다.

현재 구글은 세계 각지 기업 사용자와 개발자들에게 '무료 등급(Free Tier) GCP'라는 이름으로 GCP 클라우드 서비스의 체험 기회를 열어 놓고 있다. 무료 등급 GCP 서비스는 12개월동안 모든 GCP 서비스에 사용할 수 있는 300달러짜리 크레딧을 제공받는 '12개월 무료 체험판'과, 일반적으로 많이 쓰이는 GCP 서비스 리소스에 제한된 접근 기회를 월별로 제공받는 '항상 무료' 체험 프로그램, 두 가지로 제공된다.

(바로가기 ☞ GCP Free Trial)

■ 빅쿼리 활용해 글로벌 게임 서비스의 마케팅 비용 회수 예측

넷마블은 전세계 120개국 35개 이상의 게임을 출시한 모바일게임 회사다. 회사는 빅쿼리를 활용한 광고수익률(ROAS) 예측 시스템을 구축해 마케팅에 활용했다. ROAS를 통해 여러 지역에 지출한 마케팅 비용 회수 시기를 예측하고, 구글 클라우드 AI 기술의 생애가치(LTV) 예측 솔루션으로 이용자 집단을 질적으로 평가할 수 있게 됐다. 머신러닝(ML)으로 트래픽을 분류하는 부정 광고 탐지 시스템도 구축했다.

이지영 구글 클라우드 코리아 총괄은 지난 8월 이런 넷마블 혁신사례를 소개하며 "지난 3년간 넷마블 AI 전담팀과 협업하며 게임업계에서 구글 클라우드 AI가 이룰 수 있는 가능성을 확인했다"며 "구글 클라우드는 앞으로도 넷마블과 같은 게임 개발사가 비즈니스를 혁신하고 목표를 달성할 수 있도록 적극적으로 지원할 것"이라고 강조했다.

넷마블은 마케팅 분석과 별개로 게임 운영을 돕기 위한 비정상행위 탐지 AI 구축에 GCP의 'AI 플랫폼(AI Platform)' 제품을 활용하기도 했다. AI 플랫폼은 자체 비즈니스 데이터와 AI 전문가를 보유한 기업이 처음 AI 기술 활용 프로젝트를 구성할 때 필요한 기술과 인프라를 제공한다. 딥러닝 연산을 위한 가상머신(VM), 개발 프레임워크, VM 인스턴스 관리용으로 사전 구성된 'AI 플랫폼 노트북(Notebooks)'을 포함한다.

구글 클라우드 코리아 양승도 커스터머 엔지니어링 총괄은 "GCP의 '클라우드 머신러닝 엔진(CMLE)'이라 불리던 서비스가 AI 플랫폼 안에 포함돼 있다"며 "AI 플랫폼 안에 레이블링 서비스, 딥러닝 VM 이미지, AI 플랫폼 노트북, '텐서플로 익스텐디드(TFX)' 툴 등 데이터를 마련해 정제하고, 모델링하고, 모델을 학습시키고, 비즈니스 인프라에 배포하기까지, 일련의 과정에 필요한 모든 것이 들어 있다"고 설명했다.

기업에게 VM 기반의 딥러닝 모델 학습 환경을 구축하는 시나리오는 기존 VM 단위 인프라 운영 방식을 유지하면서 선택할 수 있는 접근 방법이다. 하지만 현대적인 클라우드 컴퓨팅 인프라 운영 수단으로 주목받고 있는 쿠버네티스 컨테이너를 활용해 모델 학습 환경을 구성하고 관리하는 방법도 고려될 수 있다. 구글 클라우드는 현재 '구글 쿠버네티스 엔진(GKE)'의 온프레미스 버전을 통해 이런 방법도 지원한다.

양 총괄은 "어떤 고객사는 온프레미스 환경에 ML을 위한 파이프라인을 전부 워크플로 형태로 관리하는 오픈소스 소프트웨어 플랫폼 '쿠베플로(Kubeflow)'를 가져다 사용하기도 한다"면서 "쿠베플로가 GCP 서비스에 들어와 있지는 않지만, GKE를 온프레미스에서 쓸 수 있는 'GKE온프렘(GKE On-Prem)'을 함께 쓰는 곳은 온프레미스에서 쿠버네티스와 쿠베플로를 활용하고 있다"고 언급했다.

넷마블은 지난 2000년 설립돼 6천명 이상 임직원이 근무 중인 거대 기업이다. 리니지 2: 레볼루션, 블레이드 & 소울 레볼루션, 마블 퓨처파이트, 모두의 마블, 세븐나이츠 등 다양한 모바일 게임을 서비스 중이다. 구글 클라우드 기술은 대규모 이용자를 대상으로 제공되는 온라인 서비스의 비즈니스 효율을 높이고 부가가치를 제공하는 데 활용 가능하다. 넷마블만큼 크지 않은 조직에서도 큰 효과를 기대할 수 있다.

■ 와이더플래닛 개인맞춤형 광고부터 쏘카 차량공유 서비스 운영 최적화까지

와이더플래닛은 디지털콘텐츠 이용자의 관심을 기반으로 개인맞춤형 광고를 연결하는 노련한 기술을 보유한, 상대적으로 작은 회사다. 지난 2010년 설립돼 2017년까지 온프레미스 기반 데이터 수집, 처리, 분석 환경을 운영해 왔다. 머신러닝(ML) 타겟팅 시스템에 하둡 및 아파치 스파크 기반 빅데이터 솔루션을 쓰던 중, 기존 데이터를 클라우드로 옮기고 여기서 대부분의 신규 서비스 데이터를 처리하기 시작했다.

와이더플래닛은 특히 회사의 '타겟팅게이츠'라는 온라인 광고 데이터 분석 서비스를 구축하는 과정에 빅쿼리를 활용했다. 인터넷 서비스 이용자의 검색어, 웹사이트 방문, 기사 구독과 같은 행동 정보를 기록하는 데이터를 빠짐 없이 데이터베이스에 쌓고 실시간으로 분석할 수 있는 솔루션을 필요로 했다. 저장하고 처리할 데이터량이 계속 늘어나 장기적으로 대비해야 한다는 점이 관건이었다.

와이더플래닛은 대규모병렬처리(MPP) DW 시스템과 분산형 관계형 데이터베이스 장비 도입 대비, 빅쿼리 활용시 데이터 처리에 필요한 확장성, 인터랙티브 분석 속도, 비용 효율성이 최적이라고 판단했다. 실제로 빅쿼리 활용으로 일 30억건 가량의 데이터를 매일 새로 쌓고 실시간 분석하게 됐다. 기존 하이브(Hive) 시스템에서 5분 넘게 걸린 데이터 분석 결과 추출 작업을 빅쿼리에선 20초 이내에 끝낼 수 있었다.

GCP 빅쿼리는 디지털 마케팅과 같은 온라인 서비스뿐아니라 현실 세계와 맞물리는 O2O 서비스 환경에도 활용될 수 있다. 그 최신 사례가 지난 6일 서울 삼성동 코엑스에서 진행된 '구글 클라우드 서밋 서울' 현장에서 소개됐다. 이날 구글 클라우드 고객사 측 키노트 강연자로 참석한 김상우 쏘카 데이터그룹장이 회사의 차량공유 서비스 '쏘카'와 차량호출 서비스 '타다'의 데이터 인프라 운영 경험을 제시했다.

김상우 그룹장은 "기술과 데이터로 모빌리티를 혁신한다"는 회사의 비전을 바탕으로 쏘카와 타다 서비스의 운영을 담당한다. 그는 "이동을 할 때 필요한 차량과 주차공간은 사회적으로 한정된 자원이기에, 이걸 많은 사람들이 공유하고 효율적으로 활용해 이용자에게 더 나은 경험과 편의를 제공하는 것이 중요하다"면서 "이를 위한 핵심 역할인 기술과 데이터를 통한 효율 향상과 최적화를 맡고 있다"고 설명했다.

쏘카 데이터그룹은 지난해 온프레미스 환경을 폐기하고 모든 인프라를 GCP로 옮기기로 결정했다. 김 그룹장은 "성능, 운영편의성, 안정성, 비용면에서 시중의 어떤 데이터분석 솔루션보다 GCP 서비스가 뛰어나단 것을 잘 알고 있었다"며 "3주만에 마이그레이션을 마치고 모든 데이터를 빅쿼리에 저장해, 여러 데이터분석가가 SQL을 이용해 데이터를 추출하고 자신이 선호하는 도구를 활용해 분석하고 있다"고 밝혔다.

관련기사

쏘카가 제공하는 동명의 차량공유 서비스는 전국 1만2천대 차량을 직접 운영해 106개 도시에서 회원 500만명을 이용자로 확보하고 있다. 이 환경에서 김 그룹장은 빅쿼리를 포함한 GCP 서비스 도입 후 "쏘카의 '차량당 매출'이란 성과지표가 지난 3년간 바뀐 적이 없었는데 올해 성수기에는 25%를 끌어올렸고, 타다 서비스의 운영효율은 연초 대비 30% 이상 개선됐다"고 강조했다.

이 기사는 구글 클라우드 후원으로 작성된 연재 기획의 일부분입니다. 앞서 게재된 기사 [③구글표 AI 기술, 누구에게 어떻게 제공되나], [②구글 클라우드, 칩부터 라이브러리까지 AI 맞춤 설계], [①구글 클라우드 플랫폼, 한국 기업 시장에 손짓]을 먼저 읽어 보시기 바랍니다.