[기고] 거스를 수 없는 AI의 흐름

[AI 컨택] 류광현 변호사 "AI 모델 훈련 위해 공개된 정보 데이터셋 확보 우선 돼야"

컴퓨팅입력 :2024/05/10 15:07

법무법인 태평양 류광현 변호사

챗GPT 등장 이후 인공지능(AI)과 신기술, 혁신적인 서비스의 개발을 해하지 않으면서도 이용자의 권리와 개인정보를 보호하려면 어떤 것을 고려해야 할 지에 대한 논의가 최근 활발해진 분위기다. 급변하는 정보사회에서 AI와 개인정보 보호에 있어 우리 사회가 취해야 할 균형 잡힌 자세가 어떤 것인지에 대해 법무법인 태평양 AI팀에서 2주 마다 다뤄보고자 한다. 


최근 젊은 층 사이에서 챗GPT와 같은 생성형 AI 챗봇 사용이 유행이다. 자신의 이름을 검색해보는 사람들도 있고, 한국 아이돌 그룹에 대해 설명해보라고 하기도 한다. 그러나 엉뚱한 결과가 나오는 경우가 비일비재한 것은 모두가 알 듯 하다. AI 모델 훈련 단계에서 서로 다른 언어, 인구통계 및 문화를 아우르는 충분하고 다양한 데이터가 확보되지 않으면 편향된 결과가 출력될 수 있다는 것은 널리 알려진 사실이다.

생성형 AI 모델의 훈련에는 생각보다 더 방대한 양의 데이터가 필요하다. 하나의 언어를 유창하게 구사하는 대규모 언어 모델(LLM)을 개발하기 위해서는 수십 억에서 수조 개의 '토큰' 처리가 필요하다. 이 때 토큰은 개별 단어 또는 문장 부호를 의미한다. 즉 양질의 공개된 데이터를 확보하는 것이 생성형 AI의 퀄리티를 결정하게 된다는 것이다.

법무법인 태평양 류광현 변호사 (사진=법무법인 태평양)

최근 전문가들은 생성형 AI를 훈련하기 위해 양질의 정보를 제공할 필요성을 강조하고 있다. 실제로 싱가포르 정부가 자체적으로 LLM을 개발한 것은 "동남아시아의 문화적 맥락과 언어적 뉘앙스를 더 잘 대변하기 위한 목적"에서 기인한 것이기도 하다. 

이 같이 동남아시아의 문화적 맥락과 언어적 뉘앙스까지 잘 담아 내기 위해 무려 9천810억 토큰을 사용했다고 한다. 생성형 AI를 통해 새로운 시장을 개척하고 경제 성장을 자극하겠다는 앞서 나가는 발상인 것이다. 이렇듯 AI 시장에서 한 발 앞서기 위해선 이러한 모델을 훈련할 수 있도록 AI 개발자들이 공개된 데이터에 접근하는 것을 허용할 필요가 있다.

이를 위해 국내 개인정보 보호 법령상 공개된 데이터 수집의 근거를 한 번 살펴볼 필요가 있다. 크게 ▲동의 기반 수집 방식 ▲정당한 이익에 따른 수집 방식 등이 있다. 말그대로 데이터 주체의 동의를 받아 수집하는 방식이 있고, AI 학습을 위해 정당한 이익이 인정되는 경우에 수집할 수 있는 방식이 있는 것이다.

그러나 동의 기반 수집은 현실적으로 불가능에 가깝다. 방대한 양의 데이터 속에서 데이터 주체를 하나하나 선별해 개별 동의를 구하는 것, 실제로 그 사람들이 모두 동의를 해주는 것이 가능하다고 생각하는 사람은 없을 것이다. 명시적인 동의 외에 동의가 있는 것으로 추정할 수 있는 경우가 있을 수 있다. 하지만 동의를 추정하기 위해서는 개인정보의 형태, 정보주체의 공개 의도, 원래의 공개 목적과의 관련성 등 여러 가지 조건을 충족해야 가능하다. 이에 관해서도 전문가의 판단이 개입해야 해서 현실적으로 명시적인 동의를 취득하는 것과 별반 차이가 없다.

이 같이 동의를 확보하지 못한 데이터를 모두 AI 학습에서 제외해야 한다면 공개돼 있는 정보 중 상당 부분이 데이터셋에서 누락되게 될 것이다. 또 이러한 정보의 결여는 AI 모델 출력에 있어 편향된 결과를 가져오게 할 수도 있다. 

외국인이 한국에 대한 정보를 검색해보는 경우를 상상하면 쉽다. AI 모델 학습용 데이터 세트에서 한국에 대한 정보가 누락되면, 사람들이 이를 검색했을 때 AI는 정보를 제공하지 못하거나 편향된 정보를 제공하게 된다.

이에 최근에는 정당한 이익 기반 방식이 힘을 얻고 있다. 각국의 규제기관이 AI 모델 개발 시 데이터셋의 편향과 차별 문제를 주요 이슈로 다룸과 동시에 동의 기반 방식의 실질적 한계를 체감하며 보다 효과적으로 데이터셋을 확보하는 방법을 추구하는 것이다. 동의 기반 방식과 달리 정당한 이익 기반 방식의 경우 AI개발 목적과의 상당성을 고려하여 풍부한 데이터셋을 수집하는 한편, 합리성이라는 제어장치를 둬 정보가 남용되지 않도록 한다. 이러한 방식을 채택할 경우 편향된 결과 출력을 방지하면서도 개인정보가 크게 침해되지 않는다는 장점을 모두 가질 수 있다.

유럽연합 등에서도 정당한 이익 기반 수집 방식이 점차 확산되는 추세다. 프랑스 CNIL은 AI 시스템 상용화를 위해 정당한 이익을 인정한 바 있다. 영국 ICO에 따르면 개인정보처리자는 영업이익(business interests)뿐 아니라 광범위한 사회적 이익(wider societal benefits)을 포괄할 수 있다는 입장이다. 

개인정보 침해가 문제될까 싶지만 미국은 공공 데이터와 관련해 개인정보 보호 리스크가 감소했다는 판단을 내리고 있다. 또 각 주의 개인정보보호법에 이러한 판단을 반영해 공개된 데이터와 개인정보를 명확히 구분하고 있다. 공개된 정보에 포함된 개인정보에 관한 영역은 우리나라에서도 현재 명확한 규율체계가 없는 회색지대여서 실제 상황에서 불확실성을 해결하기 위한 기준 마련이 시급하다는 점을 인식하고 기준 마련에 나서고 있다.

관련기사

이처럼 AI시장에서 어떤 국가가 선두에 설 것인지가 전 세계에서 가장 뜨거운 토픽이라 해도 과언이 아니다. 각국의 기업들이 앞 다퉈 AI 시장으로 뛰어드는 가운데 생성형 AI의 개발을 위해 국가정책적으로 기여할 부분은 분명히 있다. 다양한 데이터셋의 확보는 결국 생성형 AI의 효과적이고 안전하며 총체적인 개발로 이어진다. 

이러한 맥락에서 AI 모델을 훈련하기 위한 공개된 정보 데이터셋을 확보하는 것의 법적 처리 근거를 명확히 하는 것은 우선 과제로 생각된다. 이미 공개돼 누구나 접할 수 있는 정보라면 AI가 이러한 정보를 학습하는 것을 사전적으로 제한하는 것보다는 서비스 단계에서 미세조정이나 사후적인 보안조치에 초점을 맞춰서 기준을 설정하는 것이 합리적이라는 생각이다. AI의 파도에서 벗어날 수 없다면 그 파도에서 가장 멋지게, 가장 앞에서 서핑하는 사람이 되는 건 어떨까.