데이터센터 에너지 절감을 위한 슈퍼마이크로의 제안

컴퓨팅입력 :2024/04/25 13:17

전세계적으로 인공지능(AI) 수요가 폭발적으로 증가하면서 데이터센터의 에너지 소비 증가 문제가 대두되고 있다. 생성형 AI의 기반 인프라인 GPU 서버가 그 자체로 대량의 에너지를 소모하고, 서버 발열을 식히기 위한 냉각 시스템도 대량의 에너지를 필요로 하고 있다.

마이클 맥너니 슈퍼마이크로 마케팅 및 네트워크 시큐리티 부사장과 김성민 슈퍼마이크로 FAE & 비즈니스 개발 부문 이사는 최근 본지와 진행한 서면 인터뷰에서 데이터센터의 에너지 소비 문제를 진단하고 그에 대한 슈퍼마이크로의 솔루션을 설명했다.

슈퍼마이크로 마이클 맥너니 마케팅 및 네트워크 시큐리티 부사장(왼쪽), 김성민 슈퍼마이크로 FAE & 비즈니스 개발 부문 이사.

마이클 맥너니 부사장은 “국제에너지기구(IEA)에 따르면 데이터센터, AI 및 암호화폐 부문의 전력 수요가 2026년까지 두 배 증가할 것으로 예측되며, 이중 데이터센터가 주요인으로 꼽혔다”며 “2022년 전세계 데이터센터는 연간 전력 소비 중 2%에 달하는 460테라와트시(TWh)의 전력을 소비했고, 2026년 1천TWh를 초과할 것으로 전망된다”고 설명했다.

그는 “데이터센터에서 냉각 시스템과 서버는 주요 전력 소비원으로, 일반적으로 각각 전체 소비량의 40%를 차지하며 나머지 20%는 전원 공급 시스템, 스토리지, 통신 장비가 사용한다”며 “ 2023년 전 세계 전력 생산으로 인한 CO2 배출량은 1만3천575 톤에 달했으며, 한국과 일본의 경우 728 톤을 배출했는데, 이는 데이터센터의 전력 사용량을 감축했을 때 환경에 미치는 영향 또한 줄일 수 있음을 의미한다”고 밝혔다.

그는 “기후 변화가 점점 더 악화될 것으로 예상되는만큼 데이터센터의 환경 영향을 저감하기 위한 조치를 취해야 할 때”라며 “서버 기술의 발전 및 가용 범위의 증가에도 불구하고 대부분의 서버는 최대 성능에 훨씬 못 미치는 수준으로 실행되고, 가장 효율적인 서버도 약 50% 정도의 성능만만 발휘하며 에너지 낭비를 초래한다”고 덧붙였다.

환경단체뿐 아니라 정부, 기업 등도 데이터센터의 에너지 소비 증가 문제를 심각하게 여기고 있다. 하지만 투자평가사의 기업 ESG 평가 체제 중 IT 인프라에만 초점을 맞춘 구체적인 표준 등급이나 측정 항목은 없다. 다만 에너지 효율성, 재생 에너지 사용, 탄소 발자국, 전자 폐기물 관리, 공급망 영향, 데이터 보안 및 개인정보 보호 등 다양한 요소가 기업의 지속가능성 달성에 대한 평가 중 일부분으로 고려된다.

맥너니 부사장은 “슈퍼마이크로는 많은 제품의 제품 탄소발자국(PCF) 리포트를 최적화하기 위해 노력하고 있다”며 “다만 광범위한 포트폴리오로 인해 많은 시간이 필요해 요청에 따라 준비하고 있고, 여러가지 EPEAT 인증도 진행하고 있으며, 이는 슈퍼마이크로 및 EPEAT 웹사이트에 게시될 예정”이라고 밝혔다.

생성형 AI에서 고집적 GPU 클러스터의 급증에 따른 데이터센터 에너지 소비문제는 매우 심각하다.

마이클 맥너니 부사장에 의하면, 하이퍼스케일 데이터센터 하나에서 서버, 스토리지, 그리고 네트워킹 인프라를 원활히 작동하기 위해선 100메가와트(MW)의 전력을 필요로 한다. 이는 미국 8만 가구에 전력을 공급할 수 있는 양이다.

그는 “지정학적 여건에 따라 차이는 있지만 세계 각지에서 생산하는 전기 중 약 80%가 석탄, 가스, 석유 등 화석 연료를 연소하는 방식으로 만들어지고 있다”며 “일부 데이터센터와 이를 운영하는 기업이 재생 가능한 에너지로의 전환 또는 화석 연료 소비 감축을 위한 목표를 세우고 있으나, 데이터센터는 여전히 화석 연료를 태우는 전력망을 상당량 사용해 에너지 수요를 충족하고 있다”고 설명했다..

그는 워크로드에서 에너지를 절감할 수 있는 방안으로 워크로드에 적합한 규모의 시스템 사용, 멀티 노드 및 블레이드 효율성 향상,  주요 서버 시스템의 구성 요소 선택 및 최적화, 서버 시스템 구성 요소의 교체 주기 늘리기 등을 제시했다.

맥너니 부사장은 “데이터센터 내 각 워크로드에 적합한 서버를 선택하면 전력 소비를 크게 줄일 수 있다”며 “최적화된 서버 시스템은 워크로드 요건에 맞춰 불필요한 처리를 최소화하며, 에너지 효율적인 설계와 부품 공유를 특징으로 하는 최신 서버는 와트당 처리량이 많아 전력 사용량을 줄인다”고 설명했다.

그는 “맞춤 설계는 불필요한 기능, 비용, 열 발생을 줄인다”며 “고속 CPU나 광범위한 I/O 기능을 요구하는 등 각 워크로드에 따라 맞춤화 된 서버가 과도한 용량 및 비용을 줄일 수 있다”고 덧붙였다.

다수의 노드에서 전원 공급 장치 및 팬과 같은 리소스를 공유해 부품 중복을 줄이고, 더 크고 효율적인 부품을 사용 가능하도록 함으로써 서버 시스템의 효율성을 높일 수 있다고 그는 강조했다.

그는 “이를 통해 모든 노드가 작동 중일 때 전력 소비를 줄일 수 있다”며 “또 다른 방법은 독립 서버가 네트워킹, 전원 공급 장치, 팬을 공용함으로써 랙 공간 및 케이블을 줄이는 것으로, 이는 공랭식 서버의 에너지 절약에는 케이블로 인한 공기 흐름 방해를 최소화하는 것이 중요하기 때문”이라고 설명했다.

이어 “특히 통합 스위칭 서버의 경우 일반적으로 연결 케이블 수가 적어 섀시 내외부에 전략적으로 케이블을 배치하면 에너지 효율 향상에 도움이 될 수 있다”며 “예를 들어, 1U 랙 마운트 서버 20대 대비 8U 섀시에 블레이드 20개가 탑재된 최신 블레이드 시스템은 케이블이 95% 감소하며, 공기 흐름 개선 및 팬 속도 감소로 인해 전기 사용량도 줄어든다”고 밝혔다..

주요 서버 시스템의 구성 요소 선택 및 최적화 에 대해선 하드웨어와 워크로드 및 서비스수준협약(SLA) 준수율까지 고려해 새 서버 하드웨어를 구매해야 한다고 했다. 애플리케이션 실행에 소비되는 전력을 줄일 수 있다는 이유다.

그는 “CPU와 GPU 설계가 발전함에 따라 최신 서버의 와트당 성능은 최대 3배 높아지므로, 데이터센터의 서비스를 확장하면서도 필요한 전력량을 유지 또는 감축하려 할 때 도움이 된다”며 “CPU의 경우 코어 수, 클럭 속도, 전력 소모량, 캐시 크기 등의 옵션이 전기 사용량 및 열 출력에 직접적인 영향을 미친다”고 설명했다.

그는 “이메일 서버와 같이 처리 시간이 유연한 워크로드의 경우 저전력 CPU로도 충분할 수 있으며, 데이터베이스 작업과 같이 완료 속도가 중요한 작업에는 고성능 CPU가 적합하다”며 “GPU 같은 가속기는 특정 작업에서 성능을 향상시켜 작동 시간 및 전력 비용을 줄일 수 있는데, 하드 디스크 드라이브(HDD)에서 솔리드 스테이트 드라이브(SSD)로의 전환 시, 특히 I/O 집약적인 애플리케이션에서 데이터 검색 시간 및 전력 소비량이 줄어들며 이는 서버 운영의 전반적인 에너지 효율성에 기여한다”고 했다.

현재 아마존웹서비스(AWS), 마이크로소프트, 구글 등은 자사 데이터센터의 서버시스템 구성요소의 사용연한을 느려 시스템 교체주기를 늦추고 있다. 애플리케이션이 AI 학습이나 콘텐츠 전송 네트워크 등에 더 많은 데이터를 소요함에 따라 서버는 가격과 성능 측면에서 지속적으로 강화돼야 하지만, 서버 구성 요소는 각기 다른 속도로 발전하기 때문에 교체 주기가 서로 일치하지 않을 가능성이 있으며 전자 폐기물로 이어진다.

맥너니 부사장은 “이 때 분리형 방식을 사용한다면 최신 기술이 출시될 때마다 구성품 또는 하위 시스템을 개별적으로 교체할 수 있고, 그 결과로 서버를 통째로 폐기하는 일이 줄어든다”며 “잘 설계된 섀시는 전체가 아닌 각 구성 요소를 기술 주기에 따라 매끄럽게 교체할 수 있다”고 했다.

그는 “서버의 경우 다양한 CPU와 GPU를 수용하도록 설계된다면 전체 유닛을 폐기하지 않고 선택적으로 구성 요소를 업그레이드할 수 있다”며 “이러한 접근 방식은 환경에 미치는 영향을 최소화하는 동시에 서버가 발전하는 기술 요건에 맞춰 최신 상태를 유지하도록 보장한다”고 강조했다.

전세계적으로 데이터센터 에너지 소비 절약에 대한 관심과, 실천 정도는 어느정도일까. 국제에너지기구(IEA)에 따르면 2022년 전 세계 데이터센터에서 소비한 전력량은 460TWh에 달한다. 이는 전체 에너지 소비량 중 약 2%를 차지한다. 이로 인해 주요 국가들은 데이터센터에 대한 에너지 효율 규제를 도입하고 있다.

EU는 2023년 10월 ‘EU 에너지 효율 지침(EED)’를 개정하며 이러한 변화를 선도하고 있다. EED는 2012년에 처음 채택되었으며, 에너지 효율 목표 달성을 위한 규칙 및 의무를 다루고 있다. 이번 개정은 EU가 2030년까지 2020년 기준치 대비 에너지 소비를 11.7% 추가 감축하기로 합의함에 따라 이루어졌다. 연간 에너지 절감 목표는 2023년 0.8%에서 2024년 이후 1.3%, 2030년 1.9%로 증가한다.

김성민 이사는 “세계적인 추세에 따라 우리나라도 구체적인 정책을 시행하기 시작했다”며 “정부가 건물 에너지 관리를 위해 도입한 제로에너지건축물(ZEB) 인증제도가 대표적인 예”라며 “ZEB는 건물의 에너지 부하를 최소화하고 신재생 에너지를 사용해 에너지 소비를 최소화하는 친환경 건축물로, 2017년부터 인증제도를 시행했다”고 설명했다.

그는 “2020년부터 연면적 1000m2 이상의 공공건축물에 의무화됐으며, 이는 민간 건축물까지 확장될 예정”이라며 “민간 데이터센터는 2025년부터 일정량의 재생에너지를 의무적으로 사용해야 한다는  의미로,. ZEB인증은 1) 에너지 효율 등급 1++ 이상, 2) 에너지 자립률 20% 이상, 3) 건물 에너지 관리 시스템(BEMS) 또는 원격 전자 계량기 설치 등을 기준으로 한다”고 했다.

그는 “이러한 정책의 확대는 기업들이 보다 적극적으로 데이터센터의 에너지 소비를 감축하는 데 동참할 수 있도록 장려할 것”이라며 “결과적으로, 전체 전력 소비의 40%를 차지하는 냉각 시스템에 대한 관심이 높아지고, 보다 효율적인 칠러 선택의 중요성도 강조될 것”이라고 덧붙였다.

슈퍼마이크로는 데이터센터 리소스 최적화를 위한 표준화와 비즈니스 경쟁력을 위한 유연성 간의 균형을 맞추기 위해 노력하고 있다.

슈퍼마이크로의 메가DC 및 클라우드DC 제품군은 차세대 하이퍼스케일 데이터센터를 위한 핵심 솔루션으로 제시된다. 버전 관리를 위한 OpenBMC, OCP3.0 SFF 표준을 지원하는 AIOM 모듈, 전력 최적화 설계를 비롯한 개방형 규격의 확장된 지원을 통해 데이터센터 운영자는 기존 인프라를 개조하지 않고도 개방형 컴퓨팅 개념의 이점을 누릴 수 있다고 회사측은 강조한다.

맥너니 부사장은 “슈퍼마이크로의 AIOM은 OCP3.0을 준수하고 향상된 기계 설계는 섀시를 열지 않고 서비스 및/또는 교체가 가능하도록 해 서비스 및 유지보수가 용이하다”며 “AIOM/OCP 3.0을 지원하는 플랫폼은 향상된 열 제어 기능으로 냉각 비용 절감이 가능하며, 소형 폼 팩터에 다양한 네트워킹 옵션이 제공되므로 간편한 구축이 가능하고, 열 효율이 높은 구성 요소를 갖춰 관리와 서비스가 간편하다”고 밝혔다.

그는 “슈퍼마이크로는 OCP 3.0 설계 개념을 활용해 아키텍처에 AIOM을 구현했을 때 아키텍처가 개선된 기성 표준 솔루션을 제공한다”고 덧붙였다.:

슈퍼마이크로의 AIOM 카드는 마더보드 상단에 수직 또는 수평으로 설치되는 기존 PCI-E와 달리 마더보드와 동일한 레벨에 설치되도록 설계됐다. 이로 인해 시스템 전체의 공기 흐름을 크게 증가시켜 열 관리를 개선한다. 기존 PCI-E 카드는 상단에 설치되어 설치 및 교체 시 섀시 상단을 열어야 하는 반면, AIOM 카드는 섀시 후면에서 설치되기 때문에 번거로운 작업이 필요하지 않으며, 풀 탭과 나사 노브로 인해 별도의 도구 없이 서비스 가능하다.

맥너니 부사장은 “슈퍼마이크로는 소형 폼 팩터(SFF), 열 효율성, 손쉬운 서비스 가능성, 그리고 OpenBMC 구현을 통해 서비스 시간을 단축하고 시스템 다운타임을 최소화하는 솔루션을 제공한다”며 “서버부터 랙, 데이터센터 규모까지 AIOM 탑재 솔루션을 도입한다면 인프라가 확장되는 만큼 TCO도 개선된다”고 밝혔다.

2018년 슈퍼마이크로는 실리콘밸리에서 최초로 청정 연료전지 에너지를 사용한 첨단 시설 ‘빌딩 21’을 공개했다. 이 시설은 로봇을 이용해 60대의 랙을 자동으로 한 번에 번인할수 있는 시설을 갖췄으며, 대규모 데이터센터에 필요한 장비를 신속하게 조립, 공급, 설치할 수 있다.

그는 “약 1만9천 제곱미터 규모의 건물에 생산 라인, 테스트 시설, 번인 시설, 랙 조립 시설이 갖춰져 있고, 슈퍼마이크로는 이와 같은 최첨단 시설을 통해 서버 구축 및 테스트부터 공급 단계까지의 엔드 투 엔드 프로세스를 관리하는 것은 물론, 에너지를 대폭 절약하고 환경 오염을 효과적으로 줄이는 데 앞장서고 있다”며 “빌딩 21을 통해 슈퍼마이크로는 향후 10년간 약 800만 달러의 에너지 비용을 절감할 수 있을 것으로 예상한다”고 강조했다.

슈퍼마이크로는 전세계적인 데이터센터 현대화 추세 속에서 강세를 보이며 급성장하고 있다. 맥너니 부사장은 ‘그린 컴퓨팅’에 초점을 맞춘 투자와 역량 강화에 있다고 했다.

그는 “전 세계 전력 수요의 1%에서 1.5%까지 소비하는 오늘날의 데이터센터에 그린 컴퓨팅은 매우 중요하다”며 “슈퍼마이크로의 완벽한 랙 스케일 수냉식 솔루션은 기존 냉각 방식의 필요성을 크게 낮추며, 공급 장치와 펌프는 핫스왑 및 이중 전원이 가능해 장애 발생 시 고성능 AI 및 HPC에 최적화된 서버의 랙 전체를 효율적으로 냉각할 수 있다”고 밝혔다.

그는 “이러한 솔루션은 CPU와 GPU 모두에 맞춤 설계된 콜드 플레이트를 사용해 기존 설계보다 효율적으로 열을 제거한다”며 “슈퍼마이크로 기술로 데이터센터 PUE를 1.0에 가깝게 낮출 시 30개의 화석 연료 발전소 건설을 하지 않아도 되며, 그로 인해 최대 100억 달러의 에너지 비용을 절감할 수 있다”고 설명했다.

슈퍼마이크로의 서버는 성능 대비 적은 전력을 사용하도록 설계됐다. 이는 가능한 경우 부품을 공유하는 설계를 통해 이뤄진다. 또한 슈퍼마이크로 서버는 전체 섀시 전체를 교체하지 않고 CPU, 메모리, 스토리지 등 개별 하위 시스템을 업그레이드할 수 있도록 설계됐다. 이러한 분리형 설계를 사용하면 전자 폐기물을 크게 줄이고 새로운 기술을 도입할 때 비용을 절감할 수 있다.

관련기사

그는 “슈퍼마이크로 그린 컴퓨팅의 핵심은 슈퍼마이크로가 전력 소비를 줄이는 엔비디아, 인텔, AMD 등의 최신 CPU 및 GPU 기술을 통해 최첨단 서버와 스토리지 시스템을 설계, 제조 가능하게 한다는 것”이라며 “슈퍼마이크로의 혁신적인 랙 스케일 수냉식 냉각 옵션을 통해 데이터센터 전력 사용 비용을 최대 40%까지 줄일 수 있다”고 밝혔다.

그는 “엔비디아 HGX H100 8-GPU 서버를 탑재한 슈퍼마이크로의 대표 GPU 서버는 AI 워크로드로 인해 수요가 지속 증가하고 있다”며 “슈퍼마이크로는 전 세계 통틀어 매월 5천 개의 랙을 출하할 수 있으며, 그 결과 매출 200억 달러 달성을 향해 성장할 것으로 기대된다”고 강조했다.