"AI 학습용 데이터 품질 굿"…비투엔, 과기부 주도 사업 4년 연속 참여

컨소시엄 품질 점검 완료…올해 '초거대AI 확산 생태계 조성사업' 참여 예정

컴퓨팅입력 :2024/03/25 16:07

인공지능(AI) 전문 기업 비투엔이 4년 연속으로 AI 학습용 데이터 구축 사업에 참여하며 기술력을 입증했다.

비투엔은 최근 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 '2023년 AI 학습용 데이터 구축사업'에서 컨소시엄의 품질 점검을 완료했다고 25일 밝혔다.

비투엔은 이 사업 중 ▲음성인식에 의한 영상 요약 데이터 ▲만화 웹툰 데이터 ▲건물 균열 탐지 이미지(고도화) 과제 등에 대해 피씨엔, 솔트룩스, 팀벨 등 유수한 기업과 컨소시엄을 이뤄 협업했다.

비투엔이 대한민국 4차산업혁명 페스티벌 2022에 참가해 AI 학습 데이터 품질 관리 솔루션 등을 전시했다. (사진=지디넷코리아)

특히 3개 컨소시엄의 AI 학습용 데이터 품질관리 전담기업 및 품질관리 용역기업으로 참여해 ▲품질관리 계획 수립 및 실행 ▲단계별 품질관리 활동 점검 ▲TTA 품질 검증 전담 지원 등 컨소시엄 내 전반적인 품질관리 업무를 수행했다.

여기에 AI 학습용 데이터 품질관리 솔루션 'SDQ for AI'를 활용해 NIA의 '인공지능 학습용 데이터 품질관리 가이드라인'에 명시된 데이터 구조, 입력 값 범위, 데이터 형식에 대한 구문 정확성 검사를 시행했다. 또 클래스, 인스턴스 분포도, 문장 길이, 어휘 개수 등을 측정한 통계적 다양성 검사를 통해 구축 초기 단계부터 양질의 AI 학습용 데이터를 수집했다.

이번 과제에서 비투엔이 품질 점검한 AI 학습용 데이터는 총 4종, 66만 건이다. 또 이미지 63만 건, 서브 라벨링(초거대AI 말뭉치, 이미지 캡션) 3만 건, 음성 3천 시간이다. 특히 한국어, 재난안전환경, 문화관광 등 다양한 영역의 학습용 데이터의 품질관리를 지원함으로써 AI 학습용 데이터 품질관리 기술력을 재차 증명했다.

더불어 초거대 AI 생태계 조성을 지원하기 위해 언어모델로 사용할 수 있는 말뭉치 데이터 총 186만 문장, 1천744만 토큰(어절 단위) 등 방대한 양의 고품질 말뭉치 데이터의 품질 검사를 성공적으로 수행했다.

관련기사

박순혁 비투엔 AIX 그룹장은 "2020년부터 2023년까지 4년 연속으로 AI 학습용 데이터 구축 사업에 참여했다"며 "자사 품질 검증 서비스 및 'SDQ for AI' 솔루션의 기술력과 안정성을 인정 받았다"고 말했다.

이어 "2024년도 초거대AI 확산 생태계 조성사업에서는 참여기업, 용역(품질관리 전담), 제3자 품질검증 용역(검사 건별) 등 다양한 형태로 참여할 예정"이라며 "올해는 대규모 말뭉치 데이터의 중복성, 내용 유사성, 유해성 등에 대한 품질 관리를 확대하고, 기존에 제공하던 구문적 정확성, 통계적 다양성 검사 외 의미적 정확성 검사에 대해서도 함께 지원할 계획"이라고 덧붙였다.