구글 "데이터센터에 SSD 써보니…"

"백업 HDD보다 더 중요, SLC-MLC 신뢰성 격차 적어"

컴퓨팅입력 :2016/03/11 16:34    수정: 2016/03/17 16:44

구글이 데이터센터에 플래시 기반의 저장장치 솔리드스테이트드라이브(SSD)를 몇 년 써 본 경험을 최근 공개했다. SSD의 신뢰성에 대해 상식처럼 알려진 얘기와는 차이가 있는 듯하다.

미국 스토리지 연구 전문업체 'TechnoQWAN'의 수석분석가(Chief Analyst) 로빈 해리스는 지난달 25일자 미국 지디넷 기고를 통해 구글이 최근 'FAST2016' 컨퍼런스에서 발표한 논문 일부를 요약해 소개했다.

FAST2016을 풀어 쓰면 2016년도 '파일 및 스토리지 기술' 컨퍼런스다. 이 행사는 미국서 1975년 설립된 '고급컴퓨팅시스템협회(ACSA)'의 연례 행사인, 제14회 '유즈닉스(USENIX)'의 후원으로 진행됐다. 논문 저자는 미국 토론토대 비앙카 슈뢰더(Bianca Schroeder) 교수와 구글의 라그하브 라기세티(Raghav Lagisetty), 아리프 머천트(Arif Merchant), 3명이다.

발표된 논문은 '현업에서 플래시의 신뢰성: 예상한 바와 의외였던 것(Flash Reliability in Production: The Expected and the Unexpected)'이라는 제목을 달고 소개됐다. 이 내용은 구글이 6년동안 데이터센터 인프라에 도입한 수백만대의 저장장치를 사용한 결과를 분석한 것이다. 우선 SSD를 모델에 따라 10종으로 분류, 그 SSD의 낸드플래시 유형을 싱글레벨셀(SLC)·멀티레벨셀(MLC)·기업용MLC(eMLC) 3종으로 분류했다.

[☞참조링크: SSD reliability in the real world: Google's experience(ZDNet)]

[☞참조링크: Flash Reliability in Production: The Expected and the Unexpected(FAST2016)]

보고서를 통해 해리스가 발굴한 핵심 결론은 7가지다.

구글 데이터센터에 도입됐던 SSD 모델과 낸드플래시 유형별 신뢰성을 분석한 논문이 2016년 2월 진행된 FAST2016 컨퍼런스에서 발표됐다.

첫째. 일반적으로 SSD의 신뢰성을 나타내는 지표라 알려진 UBER(Uncorrectable Bit Error Rate)은 사실 SSD의 신뢰성 판단에 알맞지 않다는 것. 반면 RBER(Raw Bit Error Rate)은 신뢰성을 결정하는 중요한 요소라는 것.

둘째. 웨어아웃(wearout)으로 인한 RBER 증가 속도는 예상보다 느렸고, 또한 UBER이나 기타 장애와는 무관했다. 이는 좋은 소식이다.

셋째. 고성능 싱글레벨셀(SLC) 드라이브라는 게, 멀티레벨셀(MLC) 드라이브보다 더 믿을만한 건 아니다.

넷째. SSD의 고장률은 하드디스크드라이브(HDD)보다 낮지만 UBER는 높았다. 이는 나쁜 소식이다.

다섯째. 얼마나 썼느냐(usage)가 아니라, 얼마나 오래됐느냐(age)가 SSD의 신뢰성에 작용한다.

여섯째. 새 SSD에 배드블록(bad block)은 흔하다. 배드블록이 많은 SSD는, 죽거나 칩 고장(die or chip failure)으로 나머지 멀쩡했던 블록 수백개도 망가지기 십상이다.

일곱째. 구글이 데이터센터에 집어넣은 SSD는 최초 도입 시점 이후 4년 이내에, 모델에 따라 30~80% 비중으로 1개 이상의 배드블록이 발생했다. 또 모델별로 2~7% 비중으로 1개 이상의 불량 칩이 발생했다.

해리스는 이 7가지 결론을 통해 크게 2가지 시사점을 일반화했다.

시사점 가운데 하나는 MLC 낸드플래시 기반 SSD가, 고가의 기업용 SLC 기반 SSD만큼 믿을만하다는 것. 해리스는 이에 대해 "소비자용 SATA 하드디스크가 비싼 SAS 및 파이버채널(FC) 드라이브만큼 신뢰성을 보여주는 것과 같은 현상"이라고 논평했다. 그에 따르면 기업용 SSD 가격이 소비자용에 비해 훨씬 비싼 이유는 '오버프로비저닝' 수준이 훨씬 높기 때문이다. 제조사들이 SSD를 오버프로비전하는 이유는 크게 2가지다. 플래시 기억소자의 웨어아웃 현상에 대비해 SSD에 발생하는 배드블록을 충분히 교체할 수 있도록 하는 것과, 쓰기 속도 저하를 야기하지 않는 가비지 콜렉션을 보장하는 것.

다른 시사점 하나는 SSD의 에러 증가율이, 사용을 얼마나 했느냐가 아니라 그저 얼마나 오래됐느냐에 관련된다는 것. 해리스는 "플래시 웨어아웃에 대한 두려움을 보상하기 위한 오버프로비저닝이 불필요하다는 의미"라고 설명했다. 그는 "연구에서 다룬 SSD 가운데 기록 횟수 한계의 근처에라도 갔던 물건은 하나도 없었다"며 "심지어 3천번 기록이 한계라는 MLC드라이브조차 그랬다"고 지적했다.

관련기사

두 시사점을 다시 요약하면 결국 기업들에게 비싼 SLC 낸드플래시 기반 SSD를 고집해야 할 이유가 전혀 없다. 실제로 현재 쏟아지고 있는 데이터센터용 스토리지시스템 가운데 SLC를 주 저장매체로 채택한 경우는 거의 없다. 몇년새 기업용 올플래시스토리지 시스템에 채택되는 낸드플래시의 대세는 eMLC와 트리플레벨셀(TLC)로 굳어지는 모양새다.

다만 여전히 염두에 둬야 할 게 있다. 해리스는 기업용 인프라에서 SSD를 활용할 때 여전히 더 주의해야 할 지점을 부각시켰다. 그는 "SSD의 UBER가 하드디스크보다 높다는 건, SSD를 사용할 때 하드디스크에 비해 백업의 중요성이 훨씬 높다는 뜻"이라고 지적했다. 한 마디로 일반적인 경우 SSD가 하드디스크보다 덜 고장나는 것 같긴 한데, 실제로 문제가 생겼다면 하드디스크보다 데이터를 잃어버릴 위험은 더 높다는 설명이다.