ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 품질 주도 관점에서의 MLOps (A Data Quality-Driven View of MLOps)
    카테고리 없음 2023. 9. 11. 15:38


    요즘 MLOps 에 대해서 공부하고 있다. 사실, 논문보다는 engineering 쪽에 가까워서 논문이 많이 없는데 하나를 찾아서 공부한 내용을 정리해본다. 내게 공부거리가 될 부분만 정리함.

    https://arxiv.org/abs/2102.07750

    A Data Quality-Driven View of MLOps

    Developing machine learning models can be seen as a process similar to the one established for traditional software development. A key difference between the two lies in the strong dependency between the quality of a machine learning model and the quality

    arxiv.org


    ## Abstract
    머신러닝 개발에 있어, 모델의 품질과 학습은 데이터의 품질에 강하게 영향을 받는다.
    본 논문에서는 데이터 품질(data quality)이 머신러닝 개발의 여러단계에서 전파되는지 보여준다.
    이를 통해 MLOps의 다양한 파이프라인의 구성요소를 효율적으로 설계할 수 있다.

    ## 1. Introduction
    데이터 품질에 관련해서는 오랜기간 연구되어 왔다. 그런데 대부분의 연구는 downstream ML 모델과는 무관하다(ActiveClean 과 같은 연구 제외)

    *NOTE: downstream 에 영향을 미치는 데이터 품질을 사전에 점검할 수 있나? 매우 도전적인 문제로 보이는데? 관련 부분 연구는 찾아볼 필요가 있겠다.

    기본적으로는 데이터 품질을 다음과 같이 네 가지로 분류할 수 있다.

    • 정확도(accuracy) : 데이터가 정확하고, 신뢰할만한지, 인증되었는지
    • 완전성(completeness): 주어진 데이터가 실제 현장을 잘 담았는지
    • 일관성(consistency): semantic 규칙 등을 위반하지 않았는지
    • 적시성(timeliness): 데이터가 최신화 되어 있는지


    * NOTE: timeliness를 currency 또는 volatility라 지칭하기도 한다는데... 동의하기가 어려움.

    그림을 참조하면 본 논문에서 던지고자 하는 핵심질문을 알 수 있다. 여기서 데이터 품질 이슈란 위에서 언급한 정확도, 안전성, 일관성, 적시성을 의미한다. 그리고 최종 ML Utility는 정확도, 일반화(generalization), 공정성(fairness), robustnes(강건성) 등이 되겠다.


    데이터 품질 이슈 달라졌을 때,
    ML 프로세스에 어떻게 전파되는가?

    MLOps 프로세스 내에서 데이터 품질 전파 관련한 연구들을 표로 정리한다. 사전 학습 단계 부터 학습 후 단계까지 다양하며, 각각 데이터 품질 관련한 이슈들이 언급도어 있다. 재미있게도 일관성(consistency) 관련한 연구는 수록하지 않았다.


    또한 MLOps 가 직면한 문제에 대해서도 설명한다.

    MLOps의 직면한 도전적 문제들은(challenges)
    데이터 관리의 도전적 문제들로 귀속된다(bound)

    즉, ML 모델을 이해하고, 측정하고, 품질을 향상시키는 것은 데이터 품질 이슈를 이해하고, 측정하고, 개선하는 것과 밀접한 관계가 있다(hinges on)는 의미이다.

    ##2. Machine Learning Preliminaries

    ### Validation and Test

    ### Bayes Error Rate
    개인적으로 베이즈 오차율(Bayes Error Rate)에 대한 이해가 부족해서 정리해보았다.

    어떤 분류기를 쓰더라도 줄어들지 않는 최소 가능 오차율(lowest possible error rate)을 의미한다. 즉 확률추정치의 하한을 구하는 것이다. 그리고 이는 예상하겠지만 매우 구하기 어렵다(아마도...).

    ### Concept Shift


    ## 3. MLOps Task 1: 효과적인 ML 품질 최적화(Effective ML Quality Optimization)
    MLOps 에서 가장 핵심적인 요소는 모델의 품질을 놓이는 것(예: 정확도). 데이터의 품질과 양을 개선하는 내용 또한 적어도 그에 못지 않게 중요함.
    ### MLOps Challenge
    모든 nosity 또는 dirty sample 이 ML 모델의 품질에 동일하게 영향을 미치는 것이 아니라는 점이 중요함. 그 결과 단순하게 input data artifacts를 클리닝한다고 해도 그것이 ML 학습과정과 무관하거나 random 할 경우 ML 모델은 sub-optimal 정도만 구해짐.

    ### A Data Quality View
    이러한 도전적 문제들을 해결하기 위해서는 학습 셋의 불완전하고 잡음이 많은 데이터가 해당 셋을 통해 학습된 ML 모델의 품질에 미치는 영향에 대한 joint analysis 가  필요함. (-> 이 부분은 무엇을 의미하는지 확실히 모르겠음)
    대표적 연구로 ActiveClean 이 있음. 저자들은 그 연구에 고무되어 CPClean 프레임워크를 제안했다고 하는데, sequential information maximization 에 근거한 클리닝 알고리즘라고 함.

    ### Our Approach: Cleaning with CPClean
    CPClean은 noise 전파를 직접적으로 모델링함. 직관적으로 엔트로피가 작을 수록  입력 노이즈가 ML 학습 과정의 다운스트림에 영향을 미치는 정도가 더 적어짐.  (-> 논문에서 무엇을 말하고자 하는지 명확히 모르겠음. possible worlds 와 같은 내게 불명확한 개념이 등장함.)

    ### Limitations
    ActiveClean: fixed model 의 gradient에 대한 정보를 이용함.
    CPClean: kNN을 사용해서 classifier로 활용. (-> 어떻게 했는지 모르겠음.)



    ## 4. MLOps Task 2: 비현실적인 기대 방지(Preventing Unrealistic Expectations)


    ### MLOps Challenge
    ### Non-Zero Bayes Error and Data Quality Issues
    ### A Data Quality View
    ### Our Approach: easl.ml/snoopy
    ### Limitations



    ## 5. MLOps_Task_3: 과적합에 대비한 엄밀한 모델 테스트(Rigorous Model Testing Against Overfitting)


    ### MLOps Challenge
    ### A Data Quality View
    ### Our Approach: Continuos Integration of ML Models easl.ml/ci
    ### Test Condition Specifications
    ### Test Set Re-Uses
    ### Limitations



    ## 6. MLOps Task 4: 효율적이고 지속적인 품질 테스트(Efficient Continuous Quality Testing)


    ### MLOps Challenge
    ### A Data Quality View
    ### Our Approach: ease.ml/ModelPicker
    ### Limitations


    ## 7. Moving Forward





Designed by Tistory.