200922_데이터 라벨링 사업 노하우3

[데이터 라벨링 사업 노하우 ③] 라벨링 프로젝트 착수 준비

슈퍼브에이아이는 머신러닝 데이터 플랫폼 ‘Superb AI Suite’를 개발하고 있는 한편, Suite를 활용해 데이터 라벨링을 하고자 하는 기업들을 꾸준히 컨설팅해왔는데요, 그 중에 성공적으로 데이터라벨링 사업을 하고 있는 곳을 소개해볼까 합니다. 바로 ‘데이터연구소’입니다. 데이터연구소는 인공지능 학습용 데이터셋 구축을 돕는 라벨링 회사로, 최고 품질의 결과물을 담보하며 국내외 다수 글로벌 AI 회사와의 협력 경험을 보유하고 있습니다. 체계적인 라벨링 시스템을 구축하며 현재까지 400명이 넘는 라벨러들과 약 20명의 매니저 인력을 양성해왔죠. 

슈퍼브에이아이와 데이터연구소는 데이터 라벨링 사업에 대한 노하우를 공유하고자 40여개 AI 관련 회사 담당자분들을 모시고 <데이터 라벨링 전문성 강화 프로그램>을 진행하기도 했습니다. 이번 포스팅에서는 프로그램에서도 가장 반응이 좋았고 추가 자료요청이 많았던 ‘데이터 라벨링 사업 A to Z’ 세션을 총 세 편의 포스팅으로 재구성했습니다. 

지난 포스팅에 이어, 프로젝트 매니징에 대한 데이터연구소의 노하우를 소개해드립니다. 데이터연구소에서는 라벨링 프로젝트를 사전-착수-사후 단계로 나눠 관리하는데요, 사전 단계에 무엇을 준비해야 할 지를 담았습니다. 프로젝트 착수 단계와 사후 단계에 상세한 내용이 궁금하다면 하단의 [다운로드]링크를 통해 전체 자료를 다운로드할 수 있습니다. 

데이터 라벨링 프로젝트 매니지먼트 Overview

(사전) 과제 요건 협의와 계약

1단계. 고객 요구 spec 파악

라벨링 스펙

라벨링 프로젝트는 고객사의 AI 모델과 가공하려는 데이터는 무엇인지, 그리고 데이터 스펙과 일정 및 품질을 파악하는 데서부터 시작합니다. 

특히 고객사가 원본데이터를 보유하고 있는지 여부는 반드시 챙겨야 합니다. 고객사가 원본 데이터를 보유하고 있지 않으면, 데이터 가공 이전에 수집이라는 단계가 추가 되기 때문입니다. 하지만 일반적으로 원본데이터를 갖고 있지 않은 고객사도 많기 때문에, 라벨링 회사가 데이터를 수집할 수 있는 파트너사를 확보해놓는 것도 유용합니다. 추가적으로 이미지/비디오/텍스트/오디오 등의 데이터 종류와 규모, 어노테이션 타입도 가능한 정확히 파악되어야 합니다. 

스펙을 파악하는 단계에서는 고객이 각 항목을 선택, 기입할 수 있도록 표준화된 스펙문서를 제작하여 소통한다면 정확하게 커뮤니케이션을 할 수 있습니다.  고객이 제시하는 스펙 문서는 각사의 상황에 따라 작성되므로 양식이 천차만별이며, 보안문제로 인해 반출이 안되어 문서 소유가 어려운 경우가 대부분입니다. 따라서 이를 통해 고객과 자사의 눈높이를 맞추고, 라벨링을 시행할 내부 구성원에게도 필요한 정보를 누락없이 전달할 수 있습니다. 

라벨링 프로젝트 가이드라인 예시

일정

다음은 일정 파악입니다. 프로젝트 착수 전 고객사와 반드시 협의해야 하는 5가지 일정이 있습니다. 먼저 계약/착수 일자를 정한 뒤, 고객사에서 원본 데이터를 전달하는 날짜를 협의합니다. 만약 고객사가 원본데이터를 보유하고 있지 않다면, 데이터 수집 일정을 협의해야겠죠? 원본 데이터가 확보되면, 고객사와 함께 협의한 라벨링 스펙을 토대로 샘플 검수 작업을 진행해야 합니다. 작업된 샘플은 고객사의 의견을 반영한 품질 증빙 자료가 되며, 리스크 관리 차원에서 반드시 포함되어야 해요. 

샘플이 만들어졌다면 이를 토대로 데이터 가공 일정 및 최종 제출 날짜까지 확정해야 합니다. 여기서 말하는 최종 제출이란 과정 중간 고객 피드백을 반영한 최종 수정본을 전달하는 일정입니다. 마지막으로는 A/S 일정인데요, 통상 최종 제출일로부터 30일 이내이지만 계약서에는 6개월~1년으로 기입하는 편입니다. 

품질

이제 품질을 파악하는 단계입니다. 고객이 요구하는 데이터의 품질 수준을 구체적으로 협의하는 것은 라벨링에서 가장 중요한 부분입니다. 구두 논의나 텍스트로 작성된 기록보다는, 시각화된 자료를 활용해야 향후 이슈를 최소화할 수 있습니다. 이를 위해 고객의 참여를 최대한 이끌어내어 샘플과 가이드라인을 상호 협의 하에 제작합니다. 보통 고객이 요구하는 라벨링 스펙을 파악하고, 해당 스펙을 기준으로 인력 리소스를 산출하여 상호 협의 하에 계약을 맺게 됩니다. 

테스트 라벨링에서는 고객사 스펙에 맞는 프로젝트 결과물의 기준을 세우는 것에 초점을 맞춥니다. 보통 전체 데이터셋의 수량이 10만장 미만이라면 2~5%, 10만장 이상이라면 1% 정도를 가지고 라벨링을 진행하고, 이를 통해 라벨러들이 작업할 때 준수해야 할 가이드라인을 완성합니다. 

라벨러들은 재택으로 작업을 할 수도 있고, 현장에서 모여서 작업을 할 수도 있는데요. 어떤 형태의 근무이든 가이드라인에 따라 일관적인 라벨링 작업을 하는 것이 중요합니다. 그리고 질 관리 측면에서는 이 가이드라인이 잘 지켜지고 있는지 계속 확인을 할 수 있어야 하겠죠? 

라벨링 가이드라인을 업로드하면, 라벨링 작업자가 이를 확인하고 작업할 수 있습니다.

가이드라인에는 세 가지 요소가 반드시 포함되어야 합니다. 

첫번째는 라벨링의 목적입니다. 실제 작업된 데이터가 쓰여지는 용도를 작업자가 이해할 수 있는 수준이어야 하는데요, 라벨러가 인공지능 전문가가 될 필요는 없지만, 프로젝트의 내용을 모르고 작업을 할 때보다 충분히 이해한 후 작업을 할 때 결과물의 품질이 좋기 때문에 최대한 자세히 상술하는 것이 좋습니다. 둘째로는 어노테이션 유형(바운딩 박스, 폴리곤 세그멘테이션, 폴리라인, 키포인트 등)과 라벨링 해야하는 오브젝트 클래스 및 속성입니다. 이 정보는 텍스트뿐만 아니라 샘플 이미지를 제시하고, 발생할 수 있는 Confused case를 자세히 설명해놓아야 합니다. 

2단계. spec 기준 리소스 산출

다음은 합의된 데이터 스펙을 토대로 인력 리소스 및 인건비를 산정하고, 내부 일정 계획을 수립하는 단계입니다. 

인력 리소스를 산출할 때에는 산업 전반의 데이터 가격을 반영하고, 다양한 역량 수준의 작업자들을 투입하여 테스트 샘플링을 진행해야 합니다. 보다 정확한 견적을 산정하기 위함인데요. 가령, 경험이 많은 라벨러의 경우 당연히 초보 라벨러보다 작업 속도가 빠르겠죠? 경험이 많은 라벨러로만 테스트 샘플링을 진행할 경우 프로젝트 종료 일자를 실제보다 이르게 잡아, 인건비가 곧 견적인 라벨링 프로젝트 특성 상 예상 견적이 실제보다 적게 나올 것입니다. 샘플링에 다양한 역량의 작업자를 투입하는 이유는 이런 오류를 최소화하고자 함입니다. 

근무 형태에 따른 견적 산정 방법

인건비에는 라벨러, 팀 리더, 검수자들의 시급이 포함됩니다. 데이터연구소에서는 인건비 산정 시, 계약 금액의 최대 70%를 초과하지 않도록 하고 있어요. 하지만 여러 번의 수정 작업이 발생할 수도 있으므로 최대 3차 수정작업까지 고려해서 인건비를 산정해야 하며, 고객사가 원하는 포맷으로의 데이터 변경을 원하는 등 별도의 기술적 요구가 있을 경우의 엔지니어 인건비와 기술료를 반영하는 것이 좋습니다. 

정확한 인건비가 산정됐다면, 다음은 이를 토대로 내부 일정을 계획합니다. 일정을 수립할 때에는 단순 과제를 수행하는 시간 뿐만 아니라, 과제의 요건을 조정하고 사후 고객의 Feedback을 반영하여 수정하는 시간까지 모두 고려해야 합니다. 또한 라벨링 인력의 인적구성과 숙련도에 따라 작업 속도에 변수가 발생할 수 있으므로 일정/인력 계획은 수시로 유연하게 수정될 수 있어야 합니다. 고객사에서 허용 가능한 가장 여유있는 기간으로 협의한 후 일정보다 빠르게 데이터를 전달할 것을 추천 드립니다. 

라벨링 프로젝트 일정 수립 예시

3단계. 계약 체결

라벨링 프로젝트 용역은 고객사의 데이터 및 핵심기술 정보가 오가기 때문에, 보안과 관련한 계약이 필수적입니다. 이를 위해 프로젝트 참여자의 보안서약 등 보안의무에 대한 조항이 반드시 명시되어야 합니다. 

이외에도 선금/잔금 비율과 지급시기, 기타 비용 발생 시 청구 조항 등 계약 금액 지급 규정도 포함되어야 하며, 보고 및 진행 상황에 대한 협의, 결과물에 대한 권리 귀속과 활용에 대한 내용도 고려해보아야 합니다. 

라벨링 프로젝트 계약서 예시

(착수) 라벨링 시행 중 관리 요소

1단계. 착수준비

라벨링 작업을 본격적으로 시작하기에 앞서, 가장 먼저 해야할 것은 작업 도구를 선택하는 것입니다. 프로젝트를 효율적이고 원활히 진행하기 위해서는 라벨링 툴을 포함한 다양한 기능이 탑재되어 있는 작업도구가 필요합니다. 어떤 기능이 포함되어야 하는지 살펴볼까요?

어노테이션 앱

쉽게 말해, 라벨링 작업을 할 수 있는 도구입니다. 바운딩 박스, 폴리곤 세그멘테이션 등 다양한 어노테이션 유형으로 라벨링을 할 수 있어야 하고, 특정 라벨에 오브젝트 클래스와 속성을 부여할 수 있는 기능도 포함되어야 합니다. 또 라벨링 작업을 연속적으로 할 수 있게끔 자동으로 데이터를 불러올 수도 있어야 해요. 

Superb AI Suite 어노테이션 앱

작업자 초대 기능

하나의 라벨링 프로젝트에서는 최소 만 장, 많게는 몇 십만 장의 데이터를 라벨링하게 됩니다. 때문에 다수의 작업자가 하나의 플랫폼에서 작업할 수 있게 하는 기능이 필수적이죠. Suite에서는 다음 그림과 같이 하나의 프로젝트에 여러 명의 작업자를 초대하고, 각 작업자에 Manager, Worker와 같은 유저 레벨을 부여할 수 있습니다. 

Superb AI Suite 작업자 초대 기능

프로젝트 분석/관리 기능

머신러닝 데이터 구축 프로젝트를 관리하기 위해서는 작업 현황 및 유저의 작업량을 파악하는 것이 필수적입니다. Suite에서는 각 프로젝트의 상태 별 라벨 개수 및 각 유저의 라벨링 작업량 통계를 제공하여 프로젝트 관리자가 보다 효율적으로 작업 현황을 관리 및 분석할 수 있도록 도와줍니다.

Superb AI Suite 프로젝트 분석/관리 기능

자, 이제 데이터 라벨링 사업을 착수할 준비가 완료되었습니다. 시작이 반이란 말이 의미하는 것은, 꼼꼼하고 철저하게 준비하면 나머지일들을 수월하게 할 수 있다는 의미일 것입니다. 


프로젝트 진행과 사후 단계에서는 다음과 같은 이벤트들이 발생합니다. 

(착수) 라벨링 시행 중 관리 요소

1단계. 착수준비
2단계. 퍼포먼스 관리
3단계. 품질관리
4단계. 일정관리

(사후) 데이터 검토와 고객 피드백

1단계. 데이터 제출
2단계. 고객 피드백
3단계. 프로젝트 종료

   → 위의 단계에서 노하우가 궁금하다면, 다음 버튼을 클릭하여 자료를 다운로드 하세요. 

프로젝트를 수행하다보면 다양한 이벤트들이 발생할 수 있습니다. 라벨링 작업은 다양한 역할을 가진 수 많은 사람들이 단 기간에 협력해야 합니다. 작업하고 있는 데이터의 품질 관리도 중요하고, 고객사와 협의한 일정을 맞추는 것도 중요합니다. 대규모 프로젝트에서 발생할 수 있는 모든 다사다난한 사건이 데이터 라벨링 작업에서 발생할 수 있죠. 모든 사람들이 데이터 작업의 본질에 집중할 수 있게, 데이터 작업에서 생산성을 높일 수 있는 방법을 고민하고 있다면 데이터연구소에서 채택하여 사용하고 있는 Superb AI Suite를 살펴 보세요. 

[데이터 라벨링 사업 노하우] 이전 시리즈 보기


About Superb AI

Superb AI Suite는  머신러닝 데이터 파이프라인의 구축, 머신러닝 개발 방식의 혁신을 목표로 하는 데이터 플랫폼입니다. 머신러닝 데이터 관련 모든 작업을 All-in-one으로 할 수 있는 플랫폼인 Superb AI Suite를 통해 데이터 소스를 연동하고, 기존의 머신러닝 개발 작업과 통합시키고, 여러 역할을 가진 실무자와 조직이 원활하게 협업해 보세요. 머신러닝 엔지니어의, 머신러닝 엔지니어에 의한, 머신러닝 엔지니어를 위한 Superb AI의 미션은 모든 규모의 머신러닝 팀이 프로덕트 수준의 인공지능 개발에 박차를 가할 수 있도록 돕는 것입니다. 지금 바로 가입하세요. 

Superb AI가 준비하고 있는 머신러닝 오퍼레이션 자동화(ML Ops)의 미래를 함께하고 싶다면, Superb AI의 whitepaper series를 구독해보세요. 

Superb AI는 당신과 함께 하는 날을 기다리고 있겠습니다.

Share on facebook
Share on twitter
Share on linkedin
Share on email
Superb AI

Superb AI

Related Posts

2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지

Insight

사업에 참여해 성공하는 게 여러모로 회사의 현재와 미래에 중대한 기여를 할 수 있는 만큼, 사업 참여 및 수행에 성공하고자 한다면 보다 치밀하게 전략을 구상하고 실행할 필요가 있습니다. AI 학습용 데이터 구축 사업의 추세를 더 면밀히 살펴보고 어떤 기업이 사업 공모에 성공했으며 또 어떻게 수행했는지를 살펴본다면 여러분의 기업도 성공의 반열에 합류할 공산이 더 커질 것입니다. NIA에서 주도하고 있는 인공지능 학습용 데이터 구축 사업의 전반부와 성공적인 사업 구성과 실행을 위해 알아야 할 내용을 이 글을 통해 전달하고자 합니다.

Read More →

 © 2021 Superb AI, Inc. All Rights Reserved.