AI 산업 육성 밑거름 ‘데이터 라벨링’이 떠오른다

[아이티데일리] 인공지능(AI)의 발전과 함께 ‘데이터 라벨링’ 산업이 떠오르고 있다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 사람이 일일이 데이터에 라벨을 붙여야 해 ‘AI 눈알 붙이기’라고 불리기도 했다. IT업계의 막노동으로 인식되는 데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 최근 들어 업체들이 반자동화 툴을 만들어 인력과 비용 절감을 꾀하고 있다.

이 같은 데이터 라벨링이 정부의 ‘디지털 뉴딜’ 정책으로 또 한 번 관심이 모아지고 있다. 디지털 뉴딜 정책의 핵심이라 할 수 있는 AI 산업 육성을 위해 데이터 라벨링은 반드시 필요한 작업이기 때문이다. 실제 올 하반기에만 2,925억 원이라는 예산이 투입될 ‘AI 학습용 데이터 구축’에도 이 데이터 라벨링의 수요가 상당할 것으로 보인다. 인공지능에 없어서는 안 될 데이터 라벨링 시장에 대해 알아봤다.

[데이터 라벨링①] 데이터 라벨링은 ‘AI 눈알 붙이기’
[데이터 라벨링②] 겉보기엔 쉬워도 실상은 어려워
[데이터 라벨링③] 반자동화 툴 활용한 기업 전략(1)
[데이터 라벨링④] 반자동화 툴 활용한 기업 전략(2)


과거 드라마에서 우리는 사람이 직접 인형에 눈알을 붙이는 장면을 심심찮게 보아왔다. 많은 시간과 수고가 들어가는 노동집약적인 일로 가난한 사람, 기술이 없는 사람들이 하는 일로 묘사되곤 했다. 그러나 이 일은 매우 중요한 일임에 틀림없다. 많은 시간과 수고가 들어가지만 반드시 해야 할 중요한 일, 그러면서도 자동화하기 힘든 일이 바로 인형에 눈알을 붙이는 일이었다.

인공지능에도 인형에 눈알을 붙이는 것과 같은 일이 존재한다. 바로 IT업계의 막노동으로 인식되는 데이터 라벨링 작업이다. 데이터 라벨링은 AI 학습데이터를 만들기 위해 원천데이터에 값(라벨)을 붙이는 작업이다. 이 일은 자동화가 어려워 사람이 일일이 데이터에 라벨을 붙여야 한다. IT 종사자들이 데이터 라벨링 작업을 ‘AI 눈알 붙이기’라고 부르는 이유이다.


데이터 라벨링은 ‘AI 눈알 붙이기’

데이터 라벨링은 AI와 함께 주목받기 시작했다. 딥러닝 활용에 필수적이기 때문이다. 딥러닝은 대량의 데이터로 학습을 진행하며, 학습 모델은 정답을 맞힐 수 있는 방향으로 진화하는 과정을 거친다. 학습에 사용되는 데이터에는 미리 데이터 값이 매겨져야 한다. 데이터 라벨링은 이러한 정답 데이터 값을 구축하기 위한 작업인 셈이다.

한 예로 AI 학습 모델은 학생이 성적을 올리기 위해 문제를 풀고 답을 확인하며 오답노트를 작성하는 것과 같은 똑같은 과정을 거친다. 학생에게는 문제를 풀었던 답과 실제 정답지가 함께 주어져야만 반복적으로 학습하고 성적을 올릴 수 있다. 이처럼 AI 학습 모델의 정확도를 높이고 고도화하기 위한 정답지가 바로 ‘학습 데이터’라 볼 수 있다.

이 같은 ‘학습 데이터’를 구축하기 위한 과정인 데이터 라벨링은 컴퓨터가 알아들을 수 있도록 비정형 데이터를 알기 쉽게 변형하거나, 가공하는 과정을 뜻한다. 사람은 자동차가 찍혀있는 사진을 보면, 사진 속 사물이 자동차라는 사실을 쉽게 파악할 수 있다. 하지만 컴퓨터는 이를 자동차로 인식하지 못한다. 그렇기에 컴퓨터가 인식할 수 있도록 사진 위에 자동차의 위치와 크기를 입력하고, 그 위치와 크기 안에 있는 이미지를 ‘자동차’라고 표시해주는 작업이 필요하다. 이러한 일련의 과정이 바로 데이터 라벨링이다.

사실 데이터 라벨링은 새로운 개념이 아니다. 이미 오래 전부터 존재해왔다. 최근 들어 특히 관심의 초점이 된 것은 그동안 수작업으로 해왔던 일을 툴을 통해 할 수 있게 됐다는 점이다. 물론 아직도 자동화보다는 반 자동화 수준이라는 것이 일반적인 통설이다.

김현수 슈퍼브에이아이 대표는 “과거의 데이터 라벨링 작업은 사람이 직접 사물이 위치한 곳에 사각형 경계선을 긋는 형태로 진행됐다면, 현재에는 비(非) 박스 형태 즉, 3D 데이터에 맞춘 3차원 가공도 진행되고 있다. 앞으로 데이터 가공은 보다 복잡하고 정교해질 것”이라고 설명했다.

이어 그는 “최근 데이터 라벨링을 ‘인형 눈알 붙이기’와 같다고 말하는 데, 이것은 과거 사람이 직접 라벨링 작업을 했기 때문에 나왔던 말”이라며, “현재는 라벨링 자동화 툴을 통해 데이터 라벨링을 진행하기 때문에 ‘인형 눈알 붙이는 기계’를 사용해 인간이 작업하는 것과 같다”고 말했다.

데이터 라벨링 역시 다른 AI 기술들과 마찬가지로 자동화 수순을 밟고 있다. 수작업 기반으로 라벨링 작업을 할 경우 많은 데이터를 감당하기 힘들고 시간과 비용이 많이 들며, 휴먼 에러도 발생할 수 있다.

금효영 테스트웍스 AI사업본부 이사는 “비정형 데이터를 툴에 적용해 라벨링을 하는 작업까지 자동화 되고 있으며, 이전의 설계 단계와 이후의 검수 단계에 인력을 투입해 피드백을 얻고, 검수한 후 개선점을 찾는 방향으로 나아가고 있다”고 말했다.


자동화 툴로 라벨링 고도화

“좋은 성능을 가진 AI는 데이터 가공 프로세스 설계와 원천데이터 검수에 있다. 맛집과 그렇지 않은 식당의 차이가 요리비법에 있는 것과 같은 이치이다. AI 역시 제대로 설계되고 컨설팅을 거친 학습 데이터가 중요하다. 음식에서 식재료 배합이 중요하듯 원천 데이터가 라벨링 과정을 거쳤을 때 좋은 학습 데이터를 생성해냈는지, 검수 단계도 중요하다.”

강현수 코난 테크놀로지 AI그룹장은 데이터 가공 프로세스의 중요성에 대해 이같이 설명했다.

▲ 동영상 콘텐츠에서 학습데이터를 만들기 위한 데이터 가공 과정 (출처: 코난 테크놀로지)

데이터 라벨링 반자동화 툴을 사용해 데이터를 가공하는 것에 대한 표준은 아직 없는 상태이다. 이렇다보니 업체별로 데이터 가공에 대한 프로세스에서 차이를 보이고 있다. 다만, 공통적으로 거치는 단계가 있다. ▲데이터 가공 컨설팅 협의 ▲데이터 확보 및 구축 ▲데이터 라벨링 수행 ▲검수 ▲테스트 ▲재학습 ▲최종 검수 등의 단계가 바로 그것이다.

데이터 가공의 첫 걸음은 바로 데이터 가공 컨설팅 협의다. 이 단계에서는 고객의 요구사항은 물론 가공 단계에서 모델 학습을 병행할 것인지 등 많은 부분을 협의해야 한다. 축구 경기를 뛰고 있는 선수에 대한 이미지 데이터를 예로 들면, 컨설팅 협의에는 선수에 대한 데이터외에 관중의 처리 방법, 잔디 처리 방법, 주심과 부심 처리 방법 등이 포함되어야 한다.

금효영 테스트웍스 AI사업본부 이사는 “사람들이 데이터 가공이 상당 수준 자동화가 됐다고 하지만, 자동화 기술이 데이터 내에서 얼마나 많은 객체를 탐지할 수 있는지도 중요하다”며, “설계 단계에서 데이터를 가이드에 맞추는 것은 AI 모델 성능과 직결된다”고 말했다.

다음 단계는 데이터 확보와 구축이다. 데이터 가공을 위해 반드시 필요한 것은 그 재료인 데이터다. 데이터를 확보하는 방법은 업체별, 상황별로 다르지만, 고객으로부터 데이터 가공에 대한 요구를 받았을 때에는 고객의 데이터로 가공작업을 수행한다. 이 단계에서의 핵심은 원천 데이터에 대한 검수작업이다. 원천 데이터의 품질이 높아야 가공절차를 거친 후에도 높은 품질을 보장할 수 있기 때문이다. 원천 데이터에서 가공할만한 품질의 데이터를 추출하는 것이 중요하다.

다음은 컨설팅 단계에서 고객사와의 협의 내용에 따라 라벨링을 수행한다. 라벨링 작업의 대상은 검수 작업이 끝난 원천 데이터다. 라벨링은 크라우드 소싱 방법과 직원을 통해 수행하는 방법 등 2가지가 있다.

크라우드 소싱은 외주를 맡기는 방식이다. 많은 기업들이 클라우드 소싱을 위해 경력단절여성이나 장애인, 은퇴한 시니어 등 사회취약계층을 대상으로 데이터 라벨링 전문 교육을 진행하기도 한다. 일반적으로 데이터 라벨링 혹은 데이터 가공 전문 기업이 자체 제작한 툴을 사용할 수 있도록 교육을 진행한다.

▲ 크라우드 소싱 형태의 라벨링 작업 보상 (출처: 테스트웍스)

1차적으로 라벨링 작업이 완료됐을 때 데이터 매니저와 관리자는 검수를 하게 된다. 검수를 통해 애매했던 기준을 재정의하거나, 다시 데이터를 가공할 지에 대한 여부를 결정한다. 검수자는 라벨링 작업자 보다 전문적인 지식을 갖추어야 한다.

1차 단계에서 가공된 데이터는 고객의 AI 모델에 적용되기도 한다. 이 역시 컨설팅 단계에서 협의를 통해 진행된다. 평균적으로 가공량의 5~10%가 마무리 되면 고객사에 전달돼 학습에 이용되는 것으로 알려지고 있다.

크라우드 소싱이 편리하기는 하지만 단점 역시 존재한다. 바로 보안 문제와 데이터 검수 비용이 많이 든다는 점이다.

이에 대해 금효영 테스트웍스 AI 사업본부 이사는 “보안 문제가 발생하지 않도록 민감한 개인정보가 포함된 의료데이터, 금융데이터 등은 크라우드 소싱을 피해야 하며, 반자동화 툴을 사용하더라도 마스킹을 한 상태로 라벨링 작업을 해야 한다”고 강조했다.

크라우드 소싱의 단점은 데이터 품질도 보장할 수 없다는 점이다. 크라우드 소싱으로 라벨링 작업을 진행하는 사람은 데이터 매니저와 대면하지 않는다. 라벨링된 데이터의 품질을 100% 보장할 수 없다는 것이다. 그렇기에 데이터 검수에 들어가는 비용이 많을 수밖에 없다.

다음으로 모델 학습을 통해 나타난 여러 개선점들을 다시 한 번 데이터 설계에 반영해 데이터를 전체적으로 모델 개발 성능에 맞춰 설계하고 만드는 작업을 한다. 검수 작업을 담당하는 변정 코난 테크놀로지 AI팀 연구원은 “이 같은 모든 프로세스는 유동적으로 수행되며, 고객의 요구사항은 바로 반영된다. 데이터 가공 작업은 계속 순환하며, 데이터 모델 개발과 함께 병행한다”고 말했다.

라벨링 작업은 데이터 종류에 따라 방법도 다르다. 소리데이터의 경우 녹음실에서 순수하게 소리데이터만을 추출하기도 한다.

영상데이터의 경우에는 저작권의 문제가 없는 데이터를 수집한 후, 데이터의 영상 클립을 추출할 것인지, 장면 구간을 추출할 것인지, 프레임 이미지를 추출할 것인지 선택한 후 목적에 맞게 데이터를 정제한다. 이후 대표 이미지를 선정한 후 프레임별로 라벨링 작업을 수행한다.

텍스트 데이터의 라벨링 작업은 형태소를 분석해서 태그를 달아주는 형식이 주를 이루고 있다. 금효영 테스트웍스 AI사업본부 이사는 “최근 텍스트 데이터 라벨링에는 OCR 기술이 접목됐다. 형태소에 라벨링을 할 수 있는 툴도 많이 사용되고 있다”면서, “소리데이터의 경우 소리 음파에 따라 자르거나, 추출하는 기능이 많이 사용된다. 이런 방식을 통해 테스트웍스는 AI 학습데이터를 만들고 있으며, 각 분야 전문가들과 협업을 하거나 내부 전문 가공인력을 통해 라벨링 작업을 진행하고 있다”고 설명했다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지