[슈퍼브에이아이 고객사례] 시어스랩

[Case Study] 시어스랩의 AR 서비스

시어스랩의 가상피팅 서비스 ‘AR Gear’

2020년 7월, AR 기술 및 콘텐츠 개발의 선두주자인 시어스랩이 가상 피팅이 가능한 ARGear 서비스를 출시했습니다. 사용자가 자신의 신체 사진을 휴대폰으로 찍으면 증강 현실(augmented reality, AR)로 가상 피팅과 쇼핑을 할 수 있는 서비스인데요, 운동화나 안경이 사고 싶을 때 AR Gear 서비스를 이용해 셀카를 찍으면 해당 제품이 나에게 잘 어울리는지 바로 확인할 수 있습니다. 삼성, SK텔레콤, 디즈니, 펩시 등 글로벌 기업과 파트너십을 맺고 있는 시어스랩은 세계 최고 수준의 AR 기술을 보유하고 있습니다. (“코로나로 AR시대 확 당겨졌다…부동산ㆍ쇼핑ㆍ수학여행까지 대체할 것”)

인공지능 개발 과정 요약

인공지능 개발사가 이러한 신규 서비스를 런칭하는 경우, 새로운 인공지능 학습에 활용할 신규 데이터셋이 필요합니다. 서비스의 목적과 꼭 맞고 다양성과 품질이 담보된 것이어야 하죠. 가령, ‘가상 피팅 서비스’에 필요한 데이터셋은 다양한 형태의 신체부위(손, 팔, 다리, 발, 얼굴의 눈, 코 입 등)를 포함한 다량의 이미지여야 하며, ‘손’만 하더라도 주먹 쥔 손, 쫙 핀 손, 손바닥, 여자 어른의 손, 남자 아이의 손과 같은 다양성이 확보되어야 합니다.

또 라벨링 작업 시에는 스펙에 맞는 개체(Object)를 정확히 표시하고, 어노테이션을 달아야 합니다. 개체가 잘리거나, 개체 밖의 배경을 지나치게 많이 포함해 라벨링한 경우에는 학습용 데이터로서 가치가 떨어지게 됩니다.

‘손’ 이미지 데이터 라벨링 예시

데이터의 다양성과 라벨링의 정확도가 곧 인공지능의 성능을 결정하기 때문에, 회사는 큰 비용을 들여 신규 데이터셋 구축·가공 과정을 관리해야 합니다. 인공지능 서비스 개발의 80%가 여기에 소요된다는 연구 결과도 있을 정도라, 엔지니어들이 주의 깊게 지켜보아야 하죠. 하지만 효율 상 모든 과정에 엔지니어가 관여하기는 어렵습니다.

이 같은 문제점을 해결하기 위해, 시어스랩은 대규모의 데이터셋을 구축·가공하고 데이터의 품질을 관리하는 플랫폼으로 Superb AI Suite를 선택했습니다.


데이터 라벨링 = 많은 사람들 + 여러 번의 단계

일반적인 인공지능 학습용 데이터셋 확보는 다음의 순서로 이뤄집니다.

일반적인 AI 학습 데이터 라벨링 절차

위의 도식처럼, 데이터 라벨링 프로젝트는 많은 이해관계자들이 참여하는 복잡한 과정입니다. 때문에 실제 과정에서 예상치 못한 이슈나 다양한 페인포인트가 발생합니다. 예를 들어보면, 

  • 수집된 원본데이터의 정의가 잘못된 경우
    • (가상 피팅을 위한 데이터를 구축을 위해서는) 사람이 착용한 상태의 신발 데이터를 수집해야하는데, display된 신발 데이터를 수집한 경우 
  • 원본데이터의 조건/형태가 잘못된 경우
    • CCTV에 적용된 AI를 개발하고자 하는데, CCTV에서 촬영된 영상이 아니라 사람이 휴대폰으로 촬영한 영상 데이터를 수집한 경우 
  • 라벨링 및 어노테이션 작업에 오류가 생기는 경우
    • Bounding box 및 Keypoint의 라벨링 정확도가 떨어지거나 좌우를 바꾸어 라벨링 하는 경우 

등이 있죠. 실제로 시어스랩이 원했던 신체 부위 라벨링 작업에서는 인체의 신체 구조를 정확히 파악하여 관절의 위치를 특정하여 표시해야 하는데, 가이드가 정확하지 못했거나, 라벨러가 가이드를 제대로 숙지하지 못했거나, 관절의 위치를 파악하기 힘든 이미지가 있는 등 여러 가지 이유로 (왼손과 오른손을 바꾸어 어노테이션하거나, 엄지발가락을 검지발가락으로 표시하는 등) 오류가 발생할 수 있었습니다. 


실시간 소통으로 비용을 줄여주는 Superb AI Suite

대부분의 기존 라벨링 프로세스에서는, 중간에 위와 같은 문제가 생겨도 고객사는 물론 라벨링 업체 내부에서도 발견하는 것이 어려웠습니다. 경과를 실시간으로 확인할 수 없었기 때문이죠. 모든 라벨링 작업이 끝난 다음, 결과물을 받아 처음부터 다시 작업물을 검수한 후에서야 피드백을 줄 수 있었습니다. 

이처럼 데이터 관련 문제가 생겨도 즉각적인 대응이 이뤄지지 않는다면, 작업물 검수 시 품이 배로 들게 됩니다. 하지만 조금 더 빨리 문제를 파악한다면, 중간에 가이드를 수정하거나 라벨러 교육을 다시 진행하는 등 추가적인 조치를 통해 데이터 품질을 높일 수 있는 방법을 고민할 수 있습니다. 

“실시간 이슈 트래킹이 필요합니다.”
“해결된 이슈를 관리하는 기능이 필요합니다.”
“잘못된 샘플이 생기지 않도록 데이터 라벨링 시 가이드가 필요합니다.” 

데이터 작업에 관한 시어스랩의 고민

Superb AI Suite에 구현된 다음과 같은 기능은 다양한 이해관계자 간 소통 비용을 줄여줍니다.

Suite에 올라온 모든 원본데이터를 미리 볼 수 있는 라벨 목록 및 상세 페이지

모든 데이터를 확인할 수 있는 Label List

Suite에서는 모든 데이터를 한 눈에 확인할 수 있습니다. AI 엔지니어 및 프로젝트 스펙에 맞는 원본데이터가정확히 수집되고 있는지를 목록에서 바로 확인할 수 있습니다. 

특정 라벨의 정보를 한 눈에 확인할 수 있는 Detailed View

데이터를 입체적으로 관리할 수 있는 통계, 분석, 시각화 도구 제공

작업은 얼마나 진행되고 있는지? object별로 라벨링이 잘 되고 있는지? Suite와 같은 실시간 통계, 분석 기능이 없다면 데이터 라벨링 작업의 중간 과정은 깜깜한 블랙박스가 될지도 모릅니다. 한 눈에 제공되는 통계 페이지를 통해  관리자 급의 모든 이해관계자는 특정 데이터 프로젝트의 Object class별 라벨링 진행 경과, 전체 제출된 데이터 갯수, 그리고 라벨러 별 생산성 등을 한 눈에 파악할 수 있습니다. 이를 통해 작업자의 퍼포먼스 문제를 미리 발견할 수도 있고, 수집된 데이터의 불균형 문제를 미리 파악할 수도 있습니다. 

대규모 인력이 실시간으로 접속하여 함께 라벨링 작업 진행 가능

인터넷이 연결된 환경이라면 누구나 Suite에 바로 접속해서 라벨링 작업을 진행할 수 있습니다. 프로젝트 규모가 커도 걱정하지 않아도 됩니다. 관리자는 라벨러에게 작업을 할당할 수 있고, 대규모의 인력이 Suite에 접속해서 자신에게 할당된 업무를 수행하면 됩니다. Suite에서는 라벨 단위의 워크앱을 통해 데이터 라벨링에 최적화된 UI/UX 및 단축키 등을 제공하여 라벨러의 생산성을 극대화할 수 있습니다. 

이미지에서 Issue를 남기고 tracking할 수 있는 기능

데이터 라벨링 작업 중 현업에서 가장 와닿는 고통은 아마 라벨러, 검수자, 프로젝트 매니저 등 다양한 이해관계자들이 작업과 관련한 소통을 하기가 어렵다는 점일 것입니다. 대부분 문제가 생긴 부분을 캡쳐해서, 편집도구로 코멘트를 쓰고, 첨부파일로 주고 받으며 소통을 했었죠. 그러나 이제는 Issue Thread 기능으로 소통 비용을 대폭 줄일 수 있습니다. 

가이드를 잘 지켰는지 궁금한가요? 관리자를 @멘션 해서 가이드대로 작업을 했는지 바로 물어보세요. 검수를 하면서 어노테이션이 잘못된 부분을 발견했나요? 이미지에서 바로 이슈를 생성해 라벨러를 @멘션해서 다시 한번 가이드를 제공할 수도 있습니다. 한번 생성된 이슈를 계속 추적할 수 있어, 이슈 히스토리를 복기하는 것도 가능합니다. 

Issue Thread

입체적인 관리, 분석을 위한 Label Filter 제공

작업한 데이터의 양이 많아지면, 이를 효과적으로 관리하는 방법에 대한 고민이 많아집니다. 이번 프로젝트 뿐만 아니라 다음 프로젝트에서도 재사용할 수 있는 데이터가 있지는 않을까? 특정 라벨에 노트를 남기고 지속적으로 데이터를 관리할 수 있습니다. 또한 어노테이션, 제출 상태, 이슈 별로 라벨 및 데이터를 필터링해서 조건에 맞는 데이터들만 확인할 수도 있습니다. 

Label Filter

Superb AI Suite, 머신러닝 개발의 기본을 지켜주다 

Suite는 머신러닝 엔지니어들이 만든 데이터 플랫폼입니다. 

데이터 작업은 인공지능 개발의 병목이며 다수가 기피하는 과정이지만, 고품질의 인공지능 개발을 위해서는 반드시 거쳐야만 하는 중요한 작업입니다. Superb AI Suite는 머신러닝 엔지니어가 직접 만든 데이터 플랫폼인 만큼 엔지니어 관점에서 기존의 방식에서 직간접적으로 느꼈던 다양한 애로사항들을 해결하고자 노력했습니다. 

좋은 데이터 플랫폼은 인공지능 개발에 관여하는 모든 이해관계자가 쉽고 편리하게 사용할 수 있어야 합니다. AI 기업의 C-Level, AI 엔지니어부터 데이터 PM, 라벨러까지 모두의 생산성을 극대화시킬 수 있어야 하죠. Superb AI Suite에는 효과적인 AI 프로젝트 수행을 위한 Superb AI의 치열한 고민이 녹아있습니다. 


About Superb AI

Superb AI Suite는  머신러닝 데이터 파이프라인의 구축, 머신러닝 개발 방식의 혁신을 목표로 하는 데이터 플랫폼입니다. 머신러닝 데이터 관련 모든 작업을 All-in-one으로 할 수 있는 플랫폼인 Superb AI Suite를 통해 데이터 소스를 연동하고, 기존의 머신러닝 개발 작업과 통합시키고, 여러 역할을 가진 실무자와 조직이 원활하게 협업해 보세요. 머신러닝 엔지니어의, 머신러닝 엔지니어에 의한, 머신러닝 엔지니어를 위한 Superb AI의 미션은 모든 규모의 머신러닝 팀이 프로덕트 수준의 인공지능 개발에 박차를 가할 수 있도록 돕는 것입니다. 지금 바로 가입하세요. 

Superb AI가 준비하고 있는 머신러닝 오퍼레이션 자동화(ML Ops)의 미래를 함께하고 싶다면, Superb AI의 whitepaper series를 구독해보세요. 

Superb AI는 당신과 함께 하는 날을 기다리고 있겠습니다.

Share on facebook
Share on twitter
Share on linkedin
Share on email
Superb AI

Superb AI

Related Posts
머신러닝 워크플로우 실전 체험기

Suite를 활용한 머신러닝 워크플로우 실전 체험기

Case Study

2020년은 코로나 바이러스로 뒤덮인 한 해였습니다. 이제는 많이 익숙해졌지만, 아직도 문 밖을 나설 때 마스크를 깜빡할 때가 있는데요. 슈퍼브에이아이 인턴 홍찬의님이 Suite를 활용해 마스크 착용 여부를 탐지하는 머신러닝 워크플로우를 구축해보았습니다.

Read More →
hangeul ocr dataset

기계에게 한글을 가르칠 수 있을까?

Case Study

OCR(Optical Character Recognition, 광학문자인식)은 자율주행, 증강현실, IoT 등의 산업 분야에서 사물의 문자를 인식하는 기반 기술을 말합니다. 자율 주행 자동차가 도로 위의 표지판을 읽고 길을 안내하거나, 누군가의 명함을 사진으로 찍으면 이름과 연락처 등을 자동으로 저장해주는 서비스에는 이런 OCR 기술이 탑재되어 있다고 보면 됩니다. 그렇다면 OCR 모델을 학습시키는 데이터셋은 어떻게 만들어질까요?

Read More →

 © 2021 Superb AI, Inc. All Rights Reserved.