machine learning data platform

머신러닝 데이터 플랫폼이란?

머신러닝 데이터 플랫폼 = 반복되는 데이터 확보, 재학습 사이클을 위한 MLOps 도구

머신러닝 개발 과정에서 데이터 작업은 여러 번 반복되어 진행됩니다. 데이터 확보와 가공, 관리는 머신러닝 개발 프로젝트 기간 전체와 서비스 운영 기간 전체에 걸쳐 반복되어야 합니다. 맥킨지(McKinsey)의 분석에 따르면, 34%의 머신러닝 프로젝트 사례에서 데이터 확보와 재학습이 월(Month) 단위로 필요하다고 응답하였으며, 이 중 23%는 이런 반복적인 과정이 적어도 일주일에 한 번씩 필요하다고 합니다. 머신러닝 생애 주기 안에서 이 반복적인 사이클은 피할 수 없는 것이기 때문에, 이 데이터 작업 사이클을 잘 관리하기 위해 도입하는 것이 머신러닝 데이터 플랫폼이라 할 수 있습니다.

시장조사기관 코그닐리티카(Cognylitica)의 자료에 따르면, 머신러닝 개발 과정에서 데이터 작업이 차지하는 비중은 약 80%에 이른다고 합니다. 데이터 작업은 이처럼 절대적인 시간이 많이 필요한 부분이라 이를 효율화하는 것이 머신러닝 프로젝트 전체의 효율화에 큰 영향을 줄 수 있고, 학습용 데이터의 품질은 출시된 서비스의 성능에도 직접적인 영향을 미칩니다. 머신러닝 업계에서 가장 유명한 문장 중 하나인  “쓰레기를 넣으면, 쓰레기가 나온다(Garbage In, Garbage Out)” 는 데이터의 품질이 결국 머신러닝의 성능의 핵심임을 잘 보여줍니다. 데이터 플랫폼은, 머신러닝 개발에서 이러한 데이터 작업의 어려움과 중요성을 인지한 머신러닝팀들이 지속 반복이 가능한 데이터 사이클을 구축하기 위해 도입하는 솔루션입니다.

머신러닝 개발 과정 전체에서 ‘데이터 사이클’이 구축되어야 하는 대표적인 상황은 다음과 같습니다.

1. 모델이 제대로 동작하지 않을 때 (정확도 accuracy가 요구 수준에 미치지 못할 때), 학습용 데이터를 더 많이 수집하고 라벨링해서 학습용 데이터를 더 확보해야 할 필요가 있을지 모릅니다. 또는 좀 더 섬세하게 분류된 어노테이션을 기존 데이터셋에 추가하여 작업할 수도 있습니다. 모델이 특정 케이스에서 성능이 떨어지는 것이 확인되었다면, 데이터셋이 불균형하거나 편향된 것이 그 원인일 수 있고, 이때는 상대적으로 사례 수가 부족한 엣지 케이스(edge-case)를 추가적으로 수집해야 할 수도 있습니다.

2. 데이터셋에서 변화가 생기면, ML 모델을 변경하고 싶을 수 있습니다. 공개적으로 활용할 수 있는 모델일 수도 있고, 개별로 개발한 것일 수도 있지만, 더 복잡하고 고차원적인 표현(representations)을 학습할 수 있는 고성능의 모델이 필요해질 수 있습니다. 또한, 특정한 케이스의 데이터 부분집합 케이스에 특화된 별도의 모델을 학습시키는 것을 고려할 수도 있고, 하나의 여러 개의 백본(backbone) 위에 여러 개의  헤더 네트워크(header network)를 얹은 모델 아키텍쳐를 활용해서 모델이 학습할 수 있는 클래스의 집합을 확장하고자 할 수도 있습니다.

3. 모델이 배포된 이후에라도, 데이터 드리프트(머신러닝 컨텍스트에서 모델 성능 저하를 초래하는 입력 데이터의 변경 내용을 말한다)에 노출될 가능성이 있고, 이로 인한 성능 저하가 발생할 수도 있습니다. 이 경우에는, 데이터셋과 모델이 지속적으로 업데이트되어야 하고, 성능을 유지하기 위한 재학습이 필요합니다.

 이런 상황에서는 파편화된 임시변통의 솔루션들을 조합하는 것이 궁극적인 해답이 되지 않습니다. 팀 내 협업을 원활하게 도와주면서, 빠르게 데이터 셋을 구축하고, 이것의 품질을 극도로 끌어올릴 수 있는 방법을 찾아야 프로덕션 수준의 머신러닝 팀이라고 할 수 있을 것입니다. 이를 위해 반복적인 데이터 확보와 재학습과정에서 변화를 추적(Change Tracking)하고, 데이터의 버전을 관리하며, 데이터를 유연하게 조작할 수 있는 도구를 제공하고, 인공지능을 활용해서 데이터 라벨링을 자동화하는 등의 편의 기능을 제공하는 플랫폼을 머신러닝 데이터 플랫폼이라고 합니다.

적절한 MLOps 도입, 머신러닝 개발 효율화를 위한 열쇠

기업에서 MLOps 도입을 고려하고 계신가요? 인공지능 개발의 효율화를 고민 중이신가요? 실리콘밸리 MLOps 기업들이 작성한 실용적인 가이드 e-book을 지금 무료로 다운로드 받아보세요!

About Superb AI

Superb AI Suite는  머신러닝 데이터 파이프라인의 구축, 머신러닝 개발 방식의 혁신을 목표로 하는 데이터 플랫폼입니다. 머신러닝 데이터 관련 모든 작업을 All-in-one으로 할 수 있는 플랫폼인 Superb AI Suite를 통해 데이터 소스를 연동하고, 기존의 머신러닝 개발 작업과 통합시키고, 여러 역할을 가진 실무자와 조직이 원활하게 협업해 보세요. 머신러닝 엔지니어의, 머신러닝 엔지니어에 의한, 머신러닝 엔지니어를 위한 Superb AI의 미션은 모든 규모의 머신러닝 팀이 프로덕트 수준의 인공지능 개발에 박차를 가할 수 있도록 돕는 것입니다. 지금 바로 가입하세요. 

Superb AI가 준비하고 있는 머신러닝 오퍼레이션 자동화(ML Ops)의 미래를 함께하고 싶다면, Superb AI의 whitepaper series를 구독해보세요. 

Superb AI는 당신과 함께 하는 날을 기다리고 있겠습니다.

Share on facebook
Share on twitter
Share on linkedin
Share on email
Superb AI

Superb AI

Related Posts

우리 머신러닝 팀이 핵심 업무에 집중하지 못하는 이유

Insight

실무자 약 2천 여명이 참여한 서베이에서 핵심 업무에 집중하지 못하고 데이터 작업 중 특정 부분에 60%의 시간을 할애한다는 결과가 있었습니다. 이 글을 통해 머신러닝 팀의 리소스가 핵심 업무에 할당될 수 있도록 팀의 효율을 높이는 솔루션에 대한 설명을 드리고자 합니다.

Read More →

 © 2021 Superb AI, Inc. All Rights Reserved.