독서노트

[독서노트] 빅데이터를 지배하는 통계의 힘

Jerry Jun 2020. 8. 30. 10:43
728x90

bigdata

 

 이 책을 처음 알게된 것은 여의도 KBS에서 잠깐 일하고 있던 때이다. 같은 부서 분에게 데이터 분석 분야에 관심이 많다고 했더니 데이터 분석을 하시는 분을 소개시켜주셨다. 나는 이것저것 물어보기 위해 질문거리를 한아름 들고 찾아갔고 많은 이야기를 나누었다. 그리고 추천도서를 물었을 때 알려주셨던 도서를 드디어 읽게 되었다. 이 책은 통계의 필요성과 중요성을 알려주는 책이라 이 분야에 대해 입문하는 사람들에게 도움이 될 것 같다.

 


“읽기, 쓰기 능력과 마찬가지로 통계학적 사고 역시 장차 사회인이 갖춰야 할 기본교양이 될 것이다.” - 1903년 H. G. 웰스

 

 

 

 이 책에서 "통계학"은 이렇게 정의한다.

* 통계학 : 집단현상을 수량적으로 관찰하고 분석하는 방법을 연구하는 학문.

그렇다면 통계학은 언제 실제로 활용했을까?

 

 

* 역학(疫學) : 전염병을 막기 위해 원인 및 과정 등을 연구하는 학문.

johnsnow
존 스노

 

 

[존 스노 : 1813 ~ 1858]

19세기. 인류 사상 처음으로 통계학의 힘을 빌려 콜레라의 원인을 추적하여 "역학의 아버지"라고 불리운다. 당시 영국에서는 네 차례에 걸쳐 콜레라가 크게 유행해 수만 명의 목숨을 앗아갔다고 한다. 당시 외과 의사였던 존 스노는 3가지 조사를 하였다.

 

- 콜레라로 목숨을 잃은 희생자 집을 가가호호 방문해 조사하고 주변관찰

- 똑같은 상황 아래서 콜레라에 걸린 사람과 걸리지 않은 사람의 차이 비교

- 대규모의 데이터를 모아 콜레라의 발병과 관련 있을 '차이'가 어느 정도 확실성이 있는지 검증

 

 

 

 

 

 

 콜레라를 없애기 위해 그 당시 교육수준이 높은 과학자들은 생각만으로 악취를 없애면 되지 않을까? 도시에 있는 오물들을 전부 강으로 보내버리면 되지 않을까? 생각하는 것을 보면서 통계학이 얼마나 중요한지 깨닫게 된다. 

 

 


"거듭 말하지만, 10년 이내에 통계가는 가장 섹시한 직업이 될 것이다." - Hal Varian

 

 

 

 지금은 데이터 양이 아무리 방대해도 어떤 계산이든 할 수 있기 때문에 '통계해석' 이 중요하다고 한다. 넘처 흐르는 정보를 큰 저장공간에 보관만 해서는 그 가치가 있다고 할 수 없을 것이다. 이러한 '통계해석'이 요즘 빅데이터, 비스니스 인텔리전스 등의 단어로 바뀌고 있다.

 

intelligence

 

2010년 마이크로소프트잡스블로그에서 앞으로 가장 주목받게 될 전문성으로 다음 세 가지를 제시했다고 한다. 저 중에서 "비즈니스 인텔리전스", "경쟁분석", "웹 분석", "A/B 테스트", "통계해석" 은 아직 나에게는 어색한 단어이다. 좀 더 친해지기 위해서 통계를 더 열심히 공부해야겠다. 

 

 

 

 이 책을 통해서 나는 통계세계에 발을 살짝 내딛었다. 통계분야의 새로운 단어들도 접하고 과거 통계학자들은 어떻게 조사를 했는지 알게 되었다. 통계를 실무에 적용시켜 보여주는 건 아니지만 통계가 왜 필요한지 알려주는 책으로서는 가장 좋은 책이 아닐까 싶다. 

300x250