빅데이터의 가치 (feat. sqrt(n))

빅데이터의 가치 (feat. sqrt(n))

카테고리 없음 2023. 8. 26. 23:48

https://product.kyobobook.co.kr/detail/S000001875107

따라 하며 배우는 데이터 과학 | 권재명 - 교보문고

따라 하며 배우는 데이터 과학 | '데이터를 지배하는 자가 앞으로의 IT 패권을 가져갈 가능성이 높다.'알리바바의 마윈 회장의 말이다. 현대는 그야말로 데이터의 시대다. 따라서 데이터 과학이

product.kyobobook.co.kr

권재명 님의 ≪따라하며 배우는 데이터 과학≫ 책을 다시 보고 있다. 나온지 꽤 된 책이지만, 통계학을 전공하신 만큼 기본기에 대해 탄탄하게 서술하고 있고, 그 안에 알찬 내용이 많다.

오늘 질문은 다음과 같다.

데이터의 가치는 샘플의 수와 비례하는가?

단순하게 생각하면 데이터를 2배 모으면 결과가 2배 또는 그 보다 약간 못하지만 결과를 얻을 수 있을 것으로 생각한다. 이를 조금 통계적으로 서술하면, 데이터를 통한 추정치의 정확도는 샘플의 수와 비례하는가? 로 바꿀 수 있다.

책의 내용을 옮겨보자.

추정치의 정확도는 표본의 크기, 즉 샘플 크기(n)의 제곱근에 반비례한다.
즉, 추정의 정확도는 데이터량의 제곱근의 증가량과 비례한다

추정의 정확도는 데이터량의 증가와 비례하지 않는다!

이를 경제학의 한계효용체감의 법칙(a law of diminishing marginal utility)으로 설명할 수 있다고 저자는 설명한다. 또한 이는 '더 큰 데이터'의 가치도 설명할 수 있다.

처음 개의 관측치는 큰 효용을 주지만(정확도를 많이 증가시켜 주지만),
추가적인 n개의 관측치로 인한 정확도의 증가는 점점 줄어든다. ...(중략)....

비교적 단순한 추정의 문제에서 빅데이터의 가치는 점점 줄어든다.

이는 다음의 신뢰구간 공식으로도 이해할 수 있다.

어떤 경우든 신뢰구간을 줄이려면, 즉 추정 정확치를 높이려면 sqrt(n) 을 늘려야 한다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

AIQ AIQ

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역