ABOUT ME

Today
Yesterday
Total
  • 빅데이터의 가치 (feat. sqrt(n))
    카테고리 없음 2023. 8. 26. 23:48

    https://product.kyobobook.co.kr/detail/S000001875107

     

    따라 하며 배우는 데이터 과학 | 권재명 - 교보문고

    따라 하며 배우는 데이터 과학 | '데이터를 지배하는 자가 앞으로의 IT 패권을 가져갈 가능성이 높다.'알리바바의 마윈 회장의 말이다. 현대는 그야말로 데이터의 시대다. 따라서 데이터 과학이

    product.kyobobook.co.kr

     

    권재명 님의 ≪따라하며 배우는 데이터 과학≫ 책을 다시 보고 있다. 나온지 꽤 된 책이지만, 통계학을 전공하신 만큼 기본기에 대해 탄탄하게 서술하고 있고, 그 안에 알찬 내용이 많다. 

     

    오늘 질문은 다음과 같다.

    데이터의 가치는 샘플의 수와 비례하는가?

     

    단순하게 생각하면 데이터를 2배 모으면 결과가 2배 또는 그 보다 약간 못하지만 결과를 얻을 수 있을 것으로 생각한다. 이를 조금 통계적으로 서술하면, 데이터를 통한 추정치의 정확도는 샘플의 수와 비례하는가? 로 바꿀 수 있다.

     

    책의 내용을 옮겨보자. 

     

    추정치의 정확도는 표본의 크기, 즉 샘플 크기(n)의 제곱근에 반비례한다. 
    즉, 추정의 정확도는 데이터량의 제곱근의 증가량과 비례한다

     

    추정의 정확도는 데이터량의 증가와 비례하지 않는다!

     

    이를 경제학의 한계효용체감의 법칙(a law of diminishing marginal utility)으로 설명할 수 있다고 저자는 설명한다. 또한 이는 '더 큰 데이터'의 가치도 설명할 수 있다.

     

    처음 개의 관측치는 큰 효용을 주지만(정확도를 많이 증가시켜 주지만),
    추가적인 n개의 관측치로 인한 정확도의 증가는 점점 줄어든다. ...(중략)....

    비교적 단순한 추정의 문제에서 빅데이터의 가치는 점점 줄어든다.

     

    이는 다음의 신뢰구간 공식으로도 이해할 수 있다. 

    어떤 경우든 신뢰구간을 줄이려면, 즉 추정 정확치를 높이려면 sqrt(n) 을 늘려야 한다.

     

Designed by Tistory.