[파이썬 데이터 분석 입문] 으로 파이썬 & 데이터 분석 동시 입문하기

By | 2017/11/27

파이썬데이터분석입문

한빛미디어의 나는 리뷰어다 이벤트로 "파이썬 데이터 분석 입문(Foundations for Analytics with Python)"을 리뷰하게 되었다.

2011년, 대학생 때 친구들과 스크립트언어 하나를 공부하기로 하면서 파이썬을 처음 접한 이후로 지금까지 파이썬을 매우 유용하게 사용해오고 있다. 처음에는 간단한 웹 프로그램을 만들면서 시작했고, 대학원에 와서는 Flask를 이용한 연구용 웹 프로토타입 개발이나 데이터 분석을 위해 사용중이다. 파이썬 이외에도 데이터 분석을 위해 R도 가끔 쓰고, ggplot을 이용하여 그래프도 그리는 수준이라, 분명 이 책에서 대상으로 하는 데이터 분석 초보는 아니다. 그래도 당장 눈앞에 닥친 과제를 해결을 위해서 초급부터 한단계씩 오르기보다는 온 몸으로 부딪혀가며 거칠게 배워온터라 데이터 분석 입문시 반드시 알아야 할 기본기가 부족한 것은 아닐까라는 생각은 항상 하고 있었는데 우연한 기회에 이 책을 접하게 되었다.

파이썬데이터분석입문_1

이 책은 책 제목을 잘 따르고 있다. "Foundations." 일단은 데이터 분석이전에 파이썬의 기초부터 시작한다. 실제로 책 전체 350페이지 중 첫 100페이지가 파이썬 설명에 할애되었다. 단 100페이지로 파이썬을 전부 다루는 것은 당연히 불가능하므로, 데이터 처리에 필수적인 부분만 집중적으로 공략한다. 그리고 CSV/Panda를 이용한 데이터 분석, 엑셀 데이터 분석, 그리고 SQLite3/MySQL를 이용한 데이터베이스 기반 데이터 분석 등을 하나씩 다루고 있다. 데이터 분석 입문으로 필수적인 내용들이다. 하나하나 예제소스와 출력 결과를 보여주고 있기 때문에 이해하기도 쉽다. 단, 이 책을 통해 데이터 분석에 입문하고자 하는 사람은 반.드.시. 예제를 다 따라쳐보길 권한다. 그리고 이 책을 읽으면서 놀란 점은 번역이 매우 깔끔하다. O'REILLY 표지만 아니었다면 국내에서 새로 낸 책인줄 알았을 정도다.

아쉬운 점으로는, 이 책에서 csv 라이브러리 이외에 Pandas까지 같이 언급하고 있는데, 이제 프로그래밍도 처음 접하는 초보에게 pandas까지 가르치는게 맞는지 잘 모르겠다. 어차피 여기서는 csv로도 할 수 있는 일을 판다스로도 해보는 수준이라. Pandas의 강력함이 전혀 보여지지 않는다. 또한 좀 더 실전적인 예제들이 들어있었다면 좋았을 것 같다. 카테고리별 평균구하기 정도의 예제가 아니라 실제로 독자들이 읽으면서 공감할만한 예제, 예를 들면, 고객 구매 데이터에서 가장 많이 구매된 항목순으로 랭킹 보여준다던가, 특정 물품과 함께 구매될 때 가장 많이 같이 구매된 물품 예상하기 등의 예제였다면 더 재미있게 따라할 수 있지 않았을까 싶다.

"이 책은 데이터 분석을 위해 스프레드시트를 자주 이용하지만 프로그래밍 경험은 전혀 없는 독자를 대상으로 한다." p9

여기서 "스프레드시트를 자주 이용하지만"이 포인트인 것 같다. 특히 주위에 엑셀을 계속 써오던 사람은 엑셀만으로도 데이터 분석과 그래프 그리기가 충분하다고 말하지만, 데이터 양이 엑셀에서 커버할 수 있는 범위를 넘어서기 시작하면 엑셀만으로는 다루기 힘들다. 엑셀에서 다양한 함수를 제공한다하지만, R이나 파이썬 패키지에 비할 바도 아니다. 결국 데이터 분석을 해야하는 사람이라면, 엑셀로 다 할 수 있다고 혼자 끙끙앓지말고 당장 R이든 파이썬이든 이용해서 본격적인 데이터 분석으로 들어와야한다. 진입장벽이 좀 높긴하지만, 그 진입장벽을 낮추는데 이 책이 도움을 줄 수 있을 것 같다.

특정 언어를 활용한 뭔가 해내기 종류의 책을 볼 때마다 느끼는 것이지만, 그 책을 10번 읽어도 소용없다. 추가적인 공부가 더 필요하다. 처음 프로그래밍을 하는 사람이 이 책을 통해 100페이지 분량의 파이썬 설명을 공부한다고해서 파이썬을 이해하기는 굉장히 어렵다. 이 책을 읽고나면 이제 말 그대로 데이터 분석에 "입문" 한 수준이다. 이 책에서 배운 내용들을 더 잘 활용하기 위해서 다음과 같은 내용들을 추가로 공부해보길 권한다.

  • 점프 투 파이썬: 파이썬 분야의 베스트셀러 책이다. 책을 구입해도 좋고, 책 내용이 온라인에 완전 무료로 공개되어있으니 https://wikidocs.net/book/1로 접속해서 하나씩 보면서 공부해도 좋다.
  • 데이터베이스: 이 책에서 데이터베이스로 SQLite3와 MySQL을 다루고 있다. MySQL은 "Head First MySQL"이 데이터분석을 처음 접하는 사람에게 적합한 책으로 권한다. 나도 MySQL을 막연하게 알고 있을 때, 이 책을 통해 기본을 다졌다. 책사는게 싫다면 생활코딩에서 MySQL 기본 강의가 있으니 참고해도 좋다: https://opentutorials.org/course/195
  • R: R은 데이터 분석 및 통계를 위한 언어이다. 이 책에서 다루고 있는 파이썬용 ggplot 라이브러리 등은 사실 R에서 먼저 쓰였던 것들이다. 데이터 분석에 본격적으로 뛰어들면 결국 R과 만나게 될 것이다. 코세라에서 무료로 공개되어있는 R강의를 추천한다: https://www.coursera.org/learn/r-programming

<파이썬 데이터 분석 입문>의 자세한 내용은 한빛미디어 홈페이지에서 확인 하실 수 있습니다."