SK텔레콤, AWS와 한국어 자연어처리모델 공개

컴퓨팅입력 :2020/04/28 09:39    수정: 2020/04/28 09:59

SK텔레콤이 한국어 자연어처리(NLP) 모델을 오픈소스로 공개했다.

아마존웹서비스(AWS)는 SK텔레콤이 한국어 GPT-2(Generative Pretrained Transformer, 이하, KoGPT-2) 모델을 개발해 공개했다고 28일 밝혔다.

아마존웹서비스(AWS) 로고

GPT-2는 입력된 샘플 텍스트를 머신러닝(ML)으로 분석해 구문론적, 문법적, 정보적 일관성을 갖춘 텍스트로 완성하고 생성하는 자연어 처리 모델이다. 한국어로 학습된 오픈소스 기반의 GPT-2 모델인 KoGPT-2는 일반적인 질문에 대한 응답 생성, 문장 완성, 챗봇 등 한국어 해석을 요구하는 광범위한 애플리케이션의 머신러닝 성능을 향상시킬 수 있다.

개발자는 KoGPT-2를 직접 사용하거나 추가 학습을 함으로써 더 적은 자원과 NLP 지식으로 대규모 언어 모델 학습 같은 NLP 업무를 빠르게 처리할 수 있다. KoGPT-2는 챗봇 구축, 텍스트 감성 예측, 텍스트 분석 기반 응답 생성에 사용될 수 있다. SK텔레콤은 자사의 사회적 미션의 일환으로 ML 커뮤니티의 성장에 기여를 위해 KoGPT-2 개발과 공개를 결정했다.

AWS와 SK텔레콤은 함께 협력해 양사의 NLP 전문 지식과 대규모 학습 경험을 기반으로 KoGPT-2 모델을 학습시켰다. SK텔레콤이 제공한 한국어 데이터셋을 활용함으로써, 양사는 협업을 통해 고도로 효율적인 환경에서 한국어 모델을 개발, 학습했다.

AWS 이용자의 머신러닝 사용 가속화를 돕는 프로그램인 아마존 머신러닝 솔루션즈 랩과 AWS의 딥러닝 엔지니어링팀은 SK텔레콤과 함께 아마존 EC2, 아마존 S3를 위한 고성능 공유 파일 시스템 서비스인 아마존 러스터용FSx(FSx for Lustre) 등 AWS 서비스를 활용해 효율적인 대규모 학습 환경을 구축하고 조율했다.

AWS 엔지니어링 팀은 새로운 NLP용 오픈 소스 기반 딥러닝 인터페이스인 GluonNLP를 활용해 SK텔레콤의 학습 과정을 가속화 했으며, 더 적은 수의 GPU(그래픽 처리 장치)를 사용해 더 빠르게 KoGPT-2 모델의 학습을 완료했다.

KoGPT-2는 수정 MIT 라이선스(Modified MIT License) 하에 SKT AIX 센터의 깃허브 저장소에서 이용 가능하다. 관심 있는 개발자는 모델과 관련 소스를 다운로드해 프로젝트에 사용, 수정 및 적용할 수 있다. SK텔레콤은 앞서 한국어 데이터셋을 활용해 학습된 오픈 소스 텍스트 표현 모델인 코버트(KoBERT)를 공개했다. 코버트는 한국어 읽기에 특화됐으며, 챗봇 및 법적 문서 검토 등 한국어 기반 분석이 요구되는 서비스에 사용된다.

관련기사

SK 텔레콤의 에릭 데이비스 글로벌 AI 개발그룹 그룹장은 “ML은 디지털 전환을 촉진할 수 있는 잠재적인 가능성으로 인해 국내에서 많은 관심을 받고 있지만, 대부분 기업들이 KoGPT-2 모델과 같은 대규모 모델 개발에 어려움이 있었다”며 “SK텔레콤은 KoGPT-2가 노년층을 위한 챗봇, 코로나19와 관련된 가짜 뉴스 차단을 위한 검색 엔진 등 한국어를 해석하는 혁신적인 애플리케이션을 개발하는 중소기업과 스타트업의 기술 역량 발전에 이바지할 수 있기를 바란다”고 밝혔다.

미셸 리 AWS 아마존 머신러닝 솔루션즈 랩 부사장은 "KoGPT-2와 같은 고급 언어 모델을 개발하려면 많은 양의 학습 데이터, 상당한 양의 컴퓨팅 자원, 자연어 처리에 대한 전문 지식이 필요하다”며 “AWS는 고성능 컴퓨팅 기반의 가장 폭넓고 깊이 있는 ML 서비스를 제공해 한국 고객들의 문제 해결, 디지털 혁신 가속화, 고객 서비스 강화, 비즈니스 최적화, 완전히 새로운 고객 경험 창출을 달성할 수 있도록 지속적으로 지원할 것”이라고 강조했다.