마이크로소프트-오픈AI "GPT-4, 한국어 토큰 효율화 달성"

"국내 고객은 한국어로도 부담 없이 코파일럿 내 GPT-4로 개발할 수 있다. 마이크로소프트팀은 오픈AI와 손잡고 토큰 수 효율화를 이뤘다. 한국어 특성상 영어보다 평균 2배 더 많은 토큰 수가 필요했지만, 이젠 1.1배로 줄었다."

마이크로소프트 스콧 한셀만 개발자 커뮤니티 부사장은 30일 양재 aT센터에서 열린 '마이크로소프트 AI 투어 인 서울'에서 코파일럿 제품 내 탑재된 오픈AI의 GPT-4 토크나이저 효율화를 강조했다.

보통 토큰 수는 생성형 AI로 개발에 필수 요소다. 토큰 수에 따라 지불해야 하는 비용도 상이하다. 토큰 수가 많으면 사용자는 높은 비용을 지불해야 한다. 모델마다 한번에 입력할 수 있는 토큰 수도 정해졌다.

스콧 한셀만 부사장은 "보통 같은 질문을 모델에 입력할 때, 한국어는 영어보다 약 2배 더 많은 토큰 수가 필요하다"고 설명했다. 그는 이에 대한 근거도 제시했다. 마이크로소프트 아시아팀 분석 결과에 따르면, 한국어는 GPT-4에서 영어보다 평균 2.36배 많은 토큰 수가 들었다.

한셀만 부사장은 "토큰 효율화를 위해 마이크로소프트팀과 오픈AI가 손잡고 연구했다"며 "똑같은 질문에 언어마다 토큰 수 차이가 없도록 하기 위함"이라고 설명했다.

오픈AI 멀티모달 모델 GPT-4에 토큰 수 개선이 이뤄졌다고 했다. 그는 모델이 토큰 수 나누는 방식을 설명했다. 현재 GPT-4의 토크나이저는 BPE 기반으로 작동한다. 바이트 기반으로 토큰을 나눈다. 이는 한국어를 텍스트 처리할 때 자음과 모음의 결합으로 본다거나 형태소 단위로 수치화하지 않는다.