"하둡파일-분석앱 인프라, 나눌 필요 없다"

히타치 "HDFS 대신 자체 개발한 'eScaleFS'로 두 워크로드 통합"

컴퓨팅입력 :2016/03/03 11:41

히타치데이터시스템즈(HDS)가 대규모 데이터를 분석하기 위해 데이터센터에 하둡 인프라를 구축하려는 기업들에게 관심을 끌만한 소위 '빅데이터 어플라이언스'형 장비를 선보였다. 하이퍼스케일아웃플랫폼(HSP)이라는 이름으로 소개된 스토리지 겸 서버 시스템이 그 주인공이다.

HSP라는 하드웨어 자체는 이미 1년전 등장한 터라 특별히 새로울 게 없다. 다만 그에 포함된 데이터 통합 솔루션과 하둡 관련 소프트웨어(SW) 기술의 변화에 주목할 여지가 있다.

히타치데이터시스템즈(HDS)가 하이퍼스케일아웃플랫폼(HSP)이라는 하둡 어플라이언스용 통합시스템 신모델을 공개했다. 한국에서도 효성인포메이션시스템(HIS)을 통해 2016년 2월 첫선을 보였다.

HSP는 연산 기능을 수행하는 서버, 데이터 저장장치(DAS), 네트워크 장비를 결합한 통합시스템이다. 그 최신 모델 'HSP400'은 하나의 시스템에서 하둡 데이터를 저장하는 것부터 분석 애플리케이션을 구동하는 것까지 다 된다. 대규모 데이터를 수집해 분산 처리하는 '하둡' 워크로드와, 저장된 대규모 데이터를 추출, 정제, 분석하는 가상화 기반 '애널리틱스' 워크로드를 동시에 구동할 수 있다는 얘기다.

하둡의 데이터 처리 관련 지식이 있는 사람에겐 좀 이상하게 들릴 수 있는 대목이다. 일반적으로 하둡용 인프라와 분석용 인프라는 별개로 운영되는데, 두 인프라를 하나로 만들어 씀으로써 운영과 관리에 대한 투자 부담을 줄여 준다는 게 HDS의 주장이다. HSP 기반 분산시스템에서 하둡 데이터 처리와 분석 연산을 모두 수행한다는 얘기다.

하둡은 데이터를 저장할 때 하둡분산파일시스템(HDFS)이라는 파일 저장 방식을 쓴다. 오로지 하둡만이 HDFS 파일을 읽고 쓸 수 있다. 다른 애플리케이션은 HDFS의 데이터를 직접 들여다볼 수 없다. 다른 애플리케이션이 그 데이터를 보려면, 같은 내용을 '여벌'로 만들어야 한다. 같은 이유로, 애널리틱스 워크로드가 하둡 데이터를 분석할 경우에도 마찬가지다. 여벌의 데이터가 분석 서버로 복사돼야 한다.

기업 인프라 관리자 입장에선 여벌 데이터를 만들고 다른 서버에 넘기는 데 드는 시간과 저장 공간 낭비가 심했다. 자원 낭비에 그치는 게 아니다. 별도 구축 인프라에 대한 안정성 유지관리와 담당 인력 배치 등이 기업에겐 모두 비용 부담으로 연결된다.

이런 점에선 하둡과 애널리틱스를 단일 인프라에서 처리할 수 있다는 HDS의 얘기는 기업들에게 솔깃할만한 구석이 있다. HSP를 쓰면 하둡을 도입하더라도 이런 부담을 걷어낼 수 있다는데, 덮어놓고 지나칠 이유가 없다.

HDS가 2016년 2월 출시한 하둡어플라이언스 통합시스템 HSP의 구성 개념을 제시한 도안. 하둡 엔진과 HDS 펜타호 및 여타 엔터프라이즈 분석 애플리케이션을 함께 구동할 수 있다는 내용이다.

HDS는 이런 신형 HSP에 담긴 기술적 차별성을 어떻게 강조했을까. 지난 16일 방한한 수닐 샤반 HDS 아태지역 솔루션 총괄 선임이사가 묘사한 HSP의 활용 방식은 대략 이렇게 요약된다.

각종 외부 데이터 소스를 통합 처리해야 하는 대규모 데이터 인프라는 하둡 기술로, 사내 업무용 애플리케이션과 비즈니스 애널리틱스 워크로드는 KVM 가상화 기반의 프라이빗 클라우드 기술로 돌린다. 두 기술이 다루는 데이터와 두 워크로드를 HSP의 스토리지와 서버에서 함께 처리한다. 필요한 추가 저장공간이나 연산능력은 장비 증설로 해결한다. 소프트웨어든 하드웨어든 문제가 생기면 HDS에게 요청한다.

HSP는 하둡 엔진에서 다뤄지는 데이터의 전처리와 후처리를 위한 2가지 별도 솔루션을 품었다. 전처리 솔루션은 온라인 트랜잭션, 고객 인구통계학 자료, 웹사이트 추적, 고객 ERP 및 공급망 데이터, 서버 로그 데이터 등을 받아 하둡으로 넘겨 주는 '펜타호데이터인티그레이션(PDI)'이다. PDI는 데이터마이닝을 위한 후처리에도 쓰인다. 이와 함께 실시간 리포팅, 셀프서비스BI를 위한 후처리 솔루션으로 펜타호비즈니스애널리틱스(PBA)도 제공된다. PDI와 PBA 모두 1년전쯤 HDS에 인수된 데이터통합 및 시각화SW 업체 '펜타호(Pentaho)'의 제품이다.

다음은 샤반 선임이사가 강조한 부분이다.

"HSP는 빅데이터 어플라이언스인 동시에 분석이나 여타 다양한 애플리케이션 가상머신(VM)을 구동할 수 있다. 여러 데이터 소스를 수집, 통합, 분석하는 작업을 단일 시스템으로 만들 수 있다. 분석을 수행하는 VM이 데이터와 가까운 곳에서 작동해 처리 효율이 높다. 오라클의 어플라이언스나 다른 빅데이터 인프라 솔루션과의 차별점이다. 기업 데이터웨어하우스(DW) 최적화, 데이터 분석시간 단축 효과를 준다."

수닐 샤반 HDS 아태지역 솔루션 총괄 선임 이사

HDS는 HSP에서 호튼웍스 하둡과 펜타호 솔루션뿐아니라 KVM 가상화 기반의 애플리케이션을 뭐든 구동할 수 있다고 주장한다. 데이터 통합부터 하둡 처리, 데이터 마이닝같은 백엔드 시스템 그리고 리포팅, BI같은 웹 프론트엔드 서비스까지 단일 인프라에서 운영할 수 있다는 얘기다. 오픈스택 가상화 기술을 직접 수용하진 못하지만, 오픈스택으로 구성된 가상화 인프라 안에서 다른 시스템들과 함께 관리될 수 있는 글랜스, 노바, 스위프트 API 호환성도 제공한다. 윈도서버나 VM웨어 가상화 VM 지원이나 호환성에 대한 별도 언급은 없었다.

이상의 모든 얘기가 사실이라 하더라도, 아직 짚고 넘어가야 할 주의사항이 있다.

HSP의 활용 시나리오가 모든 하둡, 모든 가상화, 모든 애널리틱스 애플리케이션의 조합에 대응하는 건 아니다.

사용 기업 입장에선 물론 다른 기술 요소를 적용해볼 수 있다. 하지만 이론적인 얘기다. 공식 지원 범주에 들지 않는 기술을 굳이 쓰는 건 배보다 배꼽을 키우는 격이다. 도입시 운영 안정성을 확보하거나, 장애시 기술지원을 받으려면, HDS에서 공식 지원 대상이라고 설정해 놓은 범주를 벗어난 기술을 쓰긴 간단치 않은 일이 된다. 솔루션 업체의 지원을 포기한다면 사실 저가 x86 서버에 디스크를 잔뜩 붙여 직접 하둡 인프라를 구축하는 비용이 더 싸다.

또 HSP로 구성 가능한 기술 범주를 결정하는 데, 일반 하둡 시스템과 다른 HSP만의 독자적 기술요소가 관련될 수 있음을 인지해야 한다. HSP의 기술적 접근은 사실 업계 최신 흐름과는 다소 동떨어진 느낌이다.

HDS가 2016년 2월 출시한 하둡어플라이언스 통합시스템 HSP의 구성 개념을 제시한 도안 2번. 리눅스 기반의 하이퍼바이저 KVM 기반 가상머신을 통해 분석 애플리케이션과 하둡 워크로드를 구동할 수 있다는 내용이다.

HSP는 하둡과 다른 워크로드가 데이터에 함께 접근할 수 있게 만들기 위해 고안된 'e-스케일 파일시스템(eScaleFS)'을 쓴다. eScaleFS는 HDFS 호환 기능을 갖췄고 POSIX 파일시스템 표준형 읽기 및 쓰기 접근을 지원한다. 이로써 여벌의 데이터 생성 없이 하둡과 그외 워크로드를 함께 지원한다. 말은 좋지만 HSP에서 갓 선보인 기술이라, 어떤 기술적인 제약이나 돌발 상황 변수를 내재했을지 충분히 확인되지 않았다.

HDS 측은 HSP에 eScaleFS를 만들어 넣음으로써, 하둡 인프라 구성의 약점이라 회자되는 '네임노드 병목' 현상을 해소한 부수적 이점도 얻었다고 주장했다. 하지만 네임노드 병목의 심각성은 하둡1.0때 나온 얘기다. 2년전 하둡2.0으로 업그레이드되면서 이미 완화 내지 해소됐다는 게 중론이다. 요샌 하둡 맵리듀스 대신 아파치의 '스파크(Spark)'같은 애플리케이션으로도 HDFS 파일을 다룰 수 있게 됐고, 이게 성능 면에서 훨씬 유리하다는 평가가 있다.

물론 HDS 측이 강조한 HSP의 eScaleFS 도입에 따른 부수 효과는 또 있다. 다음은 샤반 선임이사와 함께 방한한 프라티유시 카레(Pratyush Khare) HDS 아시아지역 콘텐츠 및 빅데이터 솔루션 세일즈 담당 이사의 설명이다. 그는 HSP가 하둡 어플라이언스를 넘어 사물인터넷 시대의 다목적 데이터 수집 및 분석 인프라로 활용될 수 있다는 점도 암시했다.

"HSP에선 eScaleFS가 제공하는 NFS 지원 기능으로, HDFS의 ETL을 거치는 것보다 훨씬 빠른 데이터 저장이 가능하다. 수만개 센서 데이터를 전달받는 것과 같은 상황에도 대응할 수도 있다. 초 대용량 데이터를 HDFS에 쏟아부으면 설계구조에 따른 속도 저하 현상이 발생한다. 인터넷 사업자들처럼 스케일아웃으로 속도를 높이는 방식은 기업에게 만능이 아니다. 모든 기업들이 구글이나 페이스북처럼 무한정 노드를 추가할 수는 없다. HSP는 아주 큰 데이터를 빠르게 처리해야 하지만 인프라 확장에 보수적인 일반 기업의 고민을 덜 수 있다."

HDS가 2016년 2월 출시한 하이퍼스케일아웃플랫폼(HSP) 400 모델 제원표.

하지만 HDS는 아직 HSP의 분석 엔진으로 아직 스파크를 지원하지 못한다고 밝혔다. 향후 지원을 예고했지만 시점을 구체적으로 밝히진 않았다. 사실 HSP에서 지원되는 분석 엔진은 호튼웍스 데이터 플랫폼(HDP) 하나 뿐이다. 상용화된 다양한 하둡 관련 기술이 존재하는데, 단일 분석 엔진만을 지원한다는 점은 HSP의 한계다. 사용자 선택권을 제한할 수 있기 때문이다.

HDS가 기업 고객에게 하둡 어플라이언스를 팔려면 하드웨어든 소프트웨어든 문제가 생긴 부분을 즉시 맡아 해결해 줄 수 있다고 보장해야 한다. 하드웨어 부분은 HDS가 만들었으니 어려울 게 없지만, 직접 만들지 않은 하둡 소프트웨어 쪽은 전문업체 파트너의 힘을 빌려야 한다. 이런 목적에서 HDS가 현재 파트너십을 맺은 하둡 전문 업체는 호튼웍스 뿐이다.

이런 지적에 대해 HDS 측은 HSP 제품을 위한 하둡 엔진으로 클라우데라의 기술도 제공하기 위해 관련 논의를 지원하고 있다고 밝혔다. 더불어 NoSQL 기술인 몽고DB, 카산드라 등 다른 오픈소스 기반의 기술에 대한 지원도 예고했다. 역시 시점을 구체적으로 밝히진 않았다.

관련기사

마침 호튼웍스는 아파치 스파크 기술을 끌어안았다. 2일(현지시각) 공개한 HDP 1.6 버전에 스파크가 포함됐다. 다만 호튼웍스에서는 솔루션 파트너로 HDS가 아닌 휴렛팩커드엔터프라이즈(HPE)를 언급했다. 어쨌든 소프트웨어 파트너 호튼웍스가 채택한 스파크를 HDS가 고의로 배제할 이유는 많지 않을 듯하다.

[☞참조링크: Hortonworks revamps its stack, further embraces Apache Spark]