유적건조물, 상품, 랜드마크 등 총 360만장 수집, AI허브 홈페이지 통해 개방

▲ NIA와 사람과숲이 360만 장에 달하는 한국형 사물이미지 데이터셋을 구축해 공개했다.

[아이티데일리] 한국정보화진흥원(NIA)은 한국형 인공지능(AI) 학습용 사물이미지 360만장 구축을 완료, 1월부터 전격 공개했다고 20일 밝혔다.

이번 이미지 구축 사업은 VR촬영 및 AI 기반 이미지 데이터베이스 전문기업 사람과숲 주관으로 진행됐다. AI 학습을 위한 대규모 한국형 사물이미지 데이터 구축을 목표로 ▲국가지정문화재의 고궁, 탑, 성곽 등 유적건조물 260만장 ▲신발, 가방, 모자 등 상품 80만장 ▲35개 도시 랜드마크 20만장 등 총 360만장 이상의 데이터를 확보하는데 성공했다.

인공지능(AI)은 4차 산업혁명시대를 대변하는 중요한 요소다. 특히 인공지능의 경쟁력은 데이터 확보에서부터 시작되는데 그간 인공지능 학습 데이터 분야에서 한국 실정에 맞는 사물이미지에 대한 데이터셋은 부족한 실정이었다.

AI는 4차 산업혁명 시대의 핵심 요소이며, AI의 경쟁력은 정확한 데이터 확보에서 시작된다. 하지만 그동안 국내 실정에 맞는 사물이미지 데이터는 턱없이 부족한 실정이었다. 이에 따라 NIA는 지난 2017년부터 AI 학습용 데이터 구축·확산 사업을 시행해왔 지난해 1월에는 관광·농업·헬스케어 분야의 데이터셋 7종을 개방했다.

NIA는 해당 사업의 일환으로 한국형 사물이미지 데이터셋 구축을 위해 지난해 5월 이미지 DB구축 전문기업 사람과숲을 사업자로 선정, 6개월 간 한국형 사물이미지 360만장 및 종별 최소 3,000장의 이미지를 구축하며 데이터셋을 확보했다.

국가지정문화재인 유적건조물 DB는 문화재청의 분류체계를 차용해 설계됐으며, 850여 개의 대상체에 대해 서울·경기·인천·경주 지역을 중심으로 촬영 및 수집이 진행됐다. 상품 DB는 대형 온라인 마켓의 분류체계를 참조해 설계됐고, 외국인 관광객 선호 상품과 한국에서 생산·유통되는 상품을 기준으로 귀금속·신발·화장품 등 250여 개 대상체를 수집했다. 랜드마크 DB는 제주도를 포함해 전국 35개 도시의 대표적인 67개 랜드마크가 선정됐다.

특히 이번 사업의 온톨로지 사전에 해당하는 ADAM KB는 사람, 장소 등 7가지 도메인 영역에서 2천 6백만 개의 인스턴스를 확보하고 있으며, 추론 후의 트리플 수는 4억 5천만 개에 달한다.

한윤기 사람과숲 대표는 “이번 한국형 사물이미지 학습용 데이터 구축이 국내 특성에 맞는 AI 학습데이터 부족에 대한 갈증을 해소시켜주는 것은 물론, 다양한 한국형 AI 기술 개발을 위한 밑거름이 될 것”이라며, “앞으로도 한국형 AI의 글로벌 경쟁력 향상을 위해 최선을 다하겠다”고 말했다.

한편 한국형 사물이미지 데이터 360만 장은 NIA가 운영하는 AI허브 홈페이지(☞바로가기)를 통해 공개됐다.

저작권자 © 아이티데일리 무단전재 및 재배포 금지