본문 바로가기
책장 너머 세상 - 독후감 & 서평

밑바닥부터 시작하는 데이터 과학

by 박효승 2022. 12. 28.
728x90
반응형

데이터 과학

 

조엘 그루스 저자, 박은정, 김한결 역자

인사이트 출판 2016.05.31

빅 데이터 시대최근 들어 곳곳에서 빅 데이터라는 말이 자주 들려오는 것 같다는 생각이 든다. 이미 컴퓨터를 비롯해 엄청난 정보처리 시대에 살고 있다고 생각했음에도 빅 데이터라는 말이 주는 파장은 생각보다 크다. 엄청난 양의 정보를 통해 지금까지 컴퓨터와 각종 전자기기가 대신하던 일의 수준을 넘어서는 새로운 확장이 이뤄질지도 모른다.

 

이런 기대감과 더불어 나는 재작년 알파고와 바둑기사 이세돌의 대결을 떠올리며, 정말 빅 데이터 시대가 통계학의 밝은 미래에 도움을 줄 수 있을 것인지, 나 자신이 새로운 시대를 쫒아가는 자가 아닌 주도하고 앞선 자가 될 수 있을 것인지에 대해 두려운 마음이 들기도 했다.

나는 어떤 시대에 살고 있는가? 하지만 이내 질문은 다시 돌아와 나 자신이 가진 두려움이 제4차 산업혁명과 빅 데이터에 대해 정확한 정보를 습득하지 못한 데서 비롯된 것이라는 답에 도달하게 되었다.

이런 두려움이나 설렘을 가진 것이 비단 나 뿐만은 아니다.

일례로 이 책이 출간된 계기가 된 융합과 통섭의 지식 콘서트역시 사회·경제·의학·과학·생물학·금융 등 각계 분야의 전문가들이 빅 데이터와 인공지능의 제 4차 산업혁명의 시대에 이 모든 학문의 근간이라고 불리는 통계학이 어떤 식으로 자리 잡고 존재해야 하는지에 대해 수많은 논의들이 벌어졌다.

그리고 어느새 부턴가 서점에 넘쳐나는 빅 데이터의 중요성에 대한 책처럼 세계 곳곳에서도 4차 산업혁명, 빅 데이터는 가장 중요한 화두가 되어 있다. 데이터란 무엇인가? 그리고 그 데이터를 왜 우리는 계속 더 많이 연구하고 입증해야 한다고 말하고 있는가? 이에 대해 아는 것은 어쩌면 내가 사는 시대에 대한 공부일지도 모른다는 생각이 들었다. 내가 살아갈 새로운 시대를 제대로 준비하기 위해, 우리가 꼭 알아야 하는 것, 그것이 데이터이며, 이 책은 그런 데이터를 기반으로 한 데이터 과학에 대한 책이다.

사실, 데이터과학이 주목받기 시작한 것은 몇 년 되지 않았다. 데이터 과학을 하기 위해서는 프로그래밍 같은 컴퓨터과학 분야의 지식이 있어야 하며 수학, 통계학적 기본지식도 갖추고 있어야 하기 때문에 접근성이 쉽지 않다는 것도 한 몫 했다고 볼 수 있다.

하지만 최근 데이터 과학과 연관된 시장이 성장하고 있고 대기업을 중심으로 데이터 과학 전문 부서를 설치할 만큼 그 중요성은 점점 늘어나고 있다고 보여진다. 어쩌면 미래 가장 각광받는 직업이자 분야가 될 수도 있다는 데이터 과학 분야에 대해 알 수 있다는 점은 이 책이 가진 가장 큰 값어치이기도 하다.

데이터 과학을 제대로 하고 싶다면 다음의 세 가지를 지키자. 첫째, 가설은 데이터를 보기 전에 세운다. 둘째, 데이터를 전처리할 때는 세워둔 가설을 잠시 잊는다. 셋째, p-value 는 전부가 아니다.”

이 책은 쉽지 않다. 비전공자나 일반인들을 위해 데이터과학이란 무엇인지 정의를 먼저 섦여하려 하지 않는다. 하지만 데이터 과학이라는 분야가 무엇인지 그 핵심만 보고자 하는 사람이라면 어떤 책보다 가볍게, 효율성 읽게 읽을 수 있는 책이라고 생각한다. 나는 이 책을 읽으며 내가 이해할 수 있는 부분과 이해할 수 없는 부분을 나눠보기 시작했다.

그리고 이해할 수 있는 부분에서는 앎에 대한 기쁨을, 이해할 수 없는 부분에서는 밑줄을 치고 반드시 나중에 알아보겠다는 좋은 의욕을 가지게 되었다. 그리고 그렇게 새로운 앎에 대한 의욕을 가질 수 있는 책을 만났다는 점에서 매우 기분이 좋아지는 책이라고 다른 사람들에게도 추천할 수 있을 것 같다는 생각이 들었다.

반응형

댓글