밑바닥부터 시작하는 딥러닝 2 - 파이썬으로 직접 구현하며 배우는 순환 신경망과 자연어 처리 밑바닥부터 시작하는 딥러닝 2
사이토 고키 지음, 개앞맵시 옮김 / 한빛미디어 / 2019년 5월
평점 :
장바구니담기



얼마 전 많은 사람들이 사용하고 있는 포토샵에 인공지능이 도입된 기능을 선보였다. 사람의 시선을 바꾸고, 웃는 표정도 자동으로 만들어준다. 루미나 AI는 자동으로 사람 얼굴을 인식하고, 편집이 가능하다. 하늘에 은하수도 넣고, 물의 반영도 거기에 맞게 바꿔준다. 아직 맛뵈기 정도로 발표된 것이지만, 앞으로 사진 편집 툴이 어떻게 바뀔지 방향을 보여주고 있다는데 큰 의미가 있다.


갈수록 세상이 점점 인공지능 기술로 도배되어가고 있음을 느끼게 된다. IT 현재 트렌드도 인공지능, 딥러닝, 머신러닝이고, IT에서 살아남으려면, 이젠 이런 분야를 꼭 알고 있어야 한다. 그래서 인공지능 공부에 많은 도움이 될 수 있는 책, '밑바닥부터 시작하는 딥러닝2'을 소개하려고 한다.


'밑바닥부터 시작하는 딥러닝2'는 전에 나온 '밑바닥부터 시작하는 딥러닝'의 후속편이다. 전편에서는 파이썬 기초를 익히고, 딥러닝 학습에 필요한 퍼셉트론, 신경망, 오차역전파법, 딥러닝 기초를 다뤘다. 이번 2편에서는 좀 더 심화된 주제인 순환 신경망 RNN과 자연어 처리를 집중적으로 익힌다.


보통, 쉬운 인공지능을 제목으로 말하는 책들은 간단한 이론이나 인공지능 툴 사용법을 다루는 정도인데, 이 책은 제목 그대로 인공지능의 가장 바탕이 되는 이론적인 내용을 아주 구체적으로 다룬다. 딥러닝 라이브러리를 쓰는 방법이 아닌, 바탕이 되는 코드를 이론에 맞춰 직접 만들어 보는 책이다. '밑바닥부터 시작하는 딥러닝2'이라는 책 제목처럼 딥러닝의 밑바닥부터 파보는 책인 것이다.



 

물론 딥러닝의 밑바닥은 쉽지 않다. 기본적으로 인공지능의 이론들은 어려운 수학적 지식을 기반으로 하고 있고, 코딩 능력 또한 잘 갖추고 있어야 한다. 하지만 겁먹을 필요 없다. 책에서는 프로그래밍 언어로 파이썬을 사용하고 있는데, 파이썬 기초 정도 공부했다면, 누구나 충분히 따라올 수 있다. 딥러닝 관련 수학적 지식도 차분하게 잘 설명되어 있다. 이 책 챕터 1에는 전편에 나온 것들을 살짝 복습하게 구성되어 있으므로 이것을 보고 이해가 잘 안되고, 자신 없다면, 1편인 '밑바닥부터 시작하는 딥러닝'을 먼저 보는 것이 좋을 것이다. 



 

본격적인 자연어 처리는 챕터2부터 시작된다. 자연어 처리 NLP는 말 그대로 프로그래밍 코드가 아닌 우리가 하는 말을 컴퓨터에게 이해시키기 위한 기술이다. 여기서는 시소러스의 대표인 WordNet에서도 배우고, 말뭉치 처리를 위한 통계기반 기법, 벡터화 등을 익힌다. 이후 word2vec의 CBOW, 속도 개선을 알아보고, RNN 즉 순환 신경망에 대해서 다양하게 알아보고, 배우게 된다. 이렇게 2편은 전체가 자연어, 문장 처리에 관한 것을 다룬다.




책 구성에 대해 살짝 얘기했지만, 아직 인공지능에 익숙하지 않은 분들은 관련 용어들만 살짝 봐도 답답함을 느낄 수 있을 것이다. 그러나 이 책은 그런 용어를 아주 친절하고 자세히 설명해주고 있어서 부담감 없이 자연스럽게 이해할 수 있다. 책을 보다 보면, 용어에 대해 구석구석에서 상당히 꼼꼼히 설명하고 있는 것을 알 수 있다. 쉽긴 쉬운데, 나처럼 잘 까먹는 사람은 중요 부분을 형광펜으로 긋거나, 노트에 정리해서 공부할 필요는 있다. 그만큼 알아야 할 용어들이 많다.


그리고 이 책은 번역서지만, 진짜 진짜 리얼리 번역이 참 잘되어 있다. 이 점을 확실히 강조하고 싶어서 유치한 표현을 했는데, 그만큼 번역이 자연스럽다. 간혹 여러 책을 보다 보면, 번역이 엉망이라 분명 쉬운 책인데도 도대체 무슨 말인지 모르겠는 것도 있고, 번역기를 돌렸어도 이거보다는 낫겠다 하는 책도 만나게 되는데, 보는 내내 칭찬하고 싶을 정도로 훌륭하게 번역이 되어 있다.


'밑바닥부터 시작하는 딥러닝2'는 전체적으로 딥러닝을 잘 정리하고 있어서, 인공지능, 딥러닝 공부하는 분, 인공지능 프로그램을 개발을 꿈꾸는 사람이라면, 꼭 한번 읽어 봐야 하는 책이라 생각한다. 혼자 독학하기도 좋다. 딥러닝이 어떻게 진행되는지 진짜 밑바닥을 볼 수 있어, 개발자로서 내공을 쌓는데 분명 도움이 될 것이다.


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
사소해서 물어보지 못했지만 궁금했던 이야기 - 일상에서 발견하는 호기심 과학 사소해서 물어보지 못했지만 궁금했던 이야기 1
사물궁이 잡학지식 지음 / arte(아르테) / 2020년 9월
평점 :
장바구니담기



바람을 불어 주는 선풍기에 왜 먼지가 자꾸 쌓이지? 먼지도 바람에 날아가야 하는 거 아냐? 엘리베이터가 추락할 때 점프하면 살 수 있지 않을까? 상한 음식도 끓여 먹으면 문제없는 거 아냐? 행동이 너무 느린 나무늘보는 어떻게 살아남았지? 우산을 써도 왜 바지와 신발은 잔뜩 젖지? 우산이 작아서? 


누구나 이런 궁금증 한 번쯤은 가져봤을 것이다. 이것들은 시험 문제에 나오는 것도 아니고, 모른다 해서 생활이 불편해지는 것도 아닌, 알아도 그만, 몰라도 그만인 참 사소한 것들이다. 


'사소해서 물어보지 못했지만 궁금했던 이야기'는 바로 이러한 사소하지만 알쏭달쏭 한 궁금증을 시원하게 풀어 설명해주는 책이다. 책 안에는 주로 물리, 생물, 의학, 화학과 관련된 내용을 담고 있는데, 알기 쉬운 그림과 난이도를 낮춘 설명으로 누구나 쉽게 이해할 수 있게 구성되어 있다.



 

선풍기 먼지에 대한 의문을 글 맨 앞에 적은 건, 매년 한두 번씩 선풍기 날개를 청소하면서 내가 항상 가져왔던 궁금증이었다. 날개가 매끄럽고 반질반질한데, 왜 먼지가 서서히 쌓이는지 이해가 안 됐다. 난 대충, 선풍기가 안 돌 때, 먼지가 쌓이고, 먼지가 끈적거려서 날개에 부착되어 떨어지지 않은 것이라 추측해왔다. 그러나 이 책을 보니, 아니었다. 여기에는 경계층 이론이 적용되는데, 날개 표면을 흐르는 공기가 날개 표면 마찰로 점성이 생기고, 이 부분, 즉 경계층에 먼지가 붙게 된다는 것이다. 경계층을 벗어난 위치는 먼지가 붙지 않는다. 점성이라는 추측은 얼추 맞췄지만, 근본 원리가 완전히 달랐다. 


경계층 이론은 안경알에도 적용된다. 렌즈에 묻은 먼지나 눈썹이 바람을 세계 불어도 잘 떨어지지 않는 경우가 동일한 현상이라고 한다.


사실 이 원리는 전에 인터넷에서 봤었다. 그런데 어디서 많이 봤다 했는데, 알고 보니 내가 본 것도 이 책의 저자 사물궁이 잡학지식 님의 것이었다. 그렇다. 이 책은 저자가 그동안 유튜브에 올린 것들을 책으로 엮은 것이다. 빠르게 보고 확인할 수 있는 동영상도 좋지만, 이렇게 책이란 매체를 통해서 보게 되니, 충분히 생각할 시간을 가지며, 차근차근 궁금증을 해결하는 것도 지적 욕구를 채우는데 아주 좋았다.




나무늘보에 대한 궁금증도 책을 통해 잘 해결했다. 나무늘보, 코알라 같은 느린 동물들이 험난한 자연에서 어떻게 멸종하지 않고 살아남았는지 궁금했었다. 코알라는 환경이 그렇다 쳐도, 나무늘보는 속도가 시속 0.9 킬로미터로 달팽이 사촌이라 할 정도로 느려도 너무 느려 독수리에 사냥감도 되는 동물이라 좀 이해가 안 됐다. 이건 그냥 길 가다 주워도 되는 꿀템 사냥감인데 말이다. 나무늘보가 살아남을 수 있었던 것은 바로 털이 원인이었다. 나무와 거의 같은 색에 심지어 털에 이끼 같은 녹색 조류까지 자랄 수 있어, 위장 효과의 덕을 본 것이다. 게다가 근육이 별로 없어 살도 맛도 없었던 것이다. 그래서 자연 최강 포획자인 인간의 손도 벗어났던 것이다. 재미있는 것을 많이 알 수 있었다. 배설도 일주일에 한 번 정도고, 짝짓기도 귀찮아서 혼자 사는 경우도 있다고 한다. 광고에서 지하철 놓치는 나무늘보는 아주아주 당연한 모습이었다.


원숭이에 인간 유전자 하나를 넣는 실험도 인상 깊었다. 태아 뇌세포를 관찰했는데, 인간처럼 뇌 주름이 많아지고 뇌세포도 인간만큼 증가하는 현상을 보였다고 한다. 과학자들이 당황하여 중절시켜 연구를 중단했다고 한다. 뭔가 떠오르지 않는가? 혹성탈출! 그렇다 어쩌면 어디선가 부도덕한 과학자에 의해 혹성탈출의 시저가 자라고 있을지도 모른다. 대부분의 종교는 인간만이 영혼을 가졌다고 한다. 그럼 두뇌가 발달한 원숭이는 영혼이 있을까? 난 이런 모순 때문에 영혼을 안 믿는다. 인간이 스스로 잘난 척하기 위해, 다른 인간을 지배하기 위해 만든 것이라 생각한다. 이렇듯 온갖 상상을 하게 만드는 주제였다.


'사소해서 물어보지 못했지만 궁금했던 이야기'에서는 주로 과학적 궁금증을 다루지만, 전쟁 나면, 교도소 수감자들은 어떻게 되는가? 대리운전기사는 어떻게 되돌아가나? 시청률 측정 방법과 같은 생활의 궁금증도 몇 개 얘기하고 있다. 


과학이란 단어만 들어도 복잡한 수식과 공식들이 떠올라, 모기에 물린 거처럼 싫어하는 분도 '사소해서 물어보지 못했지만 궁금했던 이야기'는 이야기 주제들이 심각한 것들이 아니라 부담 없이 재미있게 볼 수 있을 것이다. 나 역시도 재미있어, 단숨에 읽을 수 있었다. 내용들이 짧게 되어 있어, 머리 식힐 겸, 한 주제씩 읽기도 좋다. 아이와 함께 보면, 교육적이면서도 재미있는 시간이 될 것이고, 동료나 친구에게 내가 알고 있는 것을 자랑도 할 수 있을 것이다. 지적 유희라는 단어가 떠오르는 책이다.


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
빅데이터는 어떻게 마케팅의 무기가 되는가
윤미정 지음 / 클라우드나인 / 2020년 9월
평점 :
장바구니담기



빅데이터 초기에는 단순한 통계 수집 정도로만 여겨졌고, 기업도 그 효용성을 높게 생각하지 않았다. 하지만 스마트폰의 등장, SNS의 범용화, 온라인 마켓 활성화 등으로 지금은 아직도 빅데이터 활용을 안 하고 있냐고 핀잔을 주고 있는 상황이 벌어지고 있다. 그만큼 빅데이터는 공공정보부터 각종 비즈니스 곳곳까지 활용되고 있으며, 이젠 마케팅의 필수 파트가 된 것이다.


하지만 진짜 아직도 모르고 있는 사람들이 많다. 빅데이터는 국가나 대기업같이 규모가 큰 곳에서만 사용되는 일반인은 감히 범접할 수 없는 것으로 오해를 하고 있다. 물론 초기에는 데이터를 가진 곳에서 공개를 주저했기에 그런 경향이 있긴 했다. 그러나 지금은 개인정보 보호와 함께 공개할 수 있는 것은 다 공개하는 쪽으로 가고 있고, 심지어 의료 정보 관련해서도 공개하려는 논의가 되고 있는 상황이다.


이제 빅데이터는 사용하기에 따라 다양한 분야의 고객을 사로잡는 초강력 무기가 될 수 있는 것이다. '빅데이터는 어떻게 마케팅의 무기가 되는가'는 바로 그 방법을 국내외 기업들의 실제 사례와 함께 차근차근 설명해주고 있는 책이다. 


이 책을 쓴 윤미정 저자는 삼성, 홈플러스, CJ 등에서 27년간의 실무 경험이 있는 고객관리와 빅데이터에 정통한 마케팅 전문가이다. 그런 만큼, 책에서 이론이 아닌, 실질적으로 적용할 수 있는 빅데이터 활용을 중점적으로 이야기하고 있다.


저자는 우선 1장을 통해 마케팅의 기본 요소인 고객관리에 대해 생각해보고 있다. 특히 충성 고객에 대한 중요성을 말하는데, 그들을 어떻게 측정해서 분류하고, 그들이 어떻게 매출에 기여하는지, 어떻게 충성고객으로 만들지를 아마존, 스타벅스, CJ ONE, 크로거 얘기와 함께 알아보고 있다.



 

2장에서는 빅데이터의 특징을 얘기해주고, 기업이 활용할 수 있는 데이터 종류를 알려준다. 판매 포스 데이터, 고객 데이터, 온라인 로그 데이터가 기본 데이터가 되고, 필요에 따라 네이버나 구글의 포털 데이터를 활용하여, 트렌드 및 선호도 등 다양한 조사를 할 수 있다. 통계청 자료와 같이 공공데이터도 여러 가지로 도움이 된다는 것을 말하고 있다.




빅데이터 활용의 핵심은 3, 4장이다. 여기에도 우버, 스티치픽스, 넷플릭스, 페브리즈 등  재미있는 사례와 전략적인 아이디어 같은 것들이 주로 이곳에 들어 있다. 빅데이터를 어떻게 초강력 무기로 갈고 닦을 거며, 빅데이터를 통해 숨겨진 노다지를 발견하는 방법을 고민하고 있는 파트인 것이다. 여기서도 중요한 것은 고객 분석이다. 고객의 마음이 어떻게 움직이는지, 고객의 패턴을 찾아내는 것이 가장 중요한 것이다. 연령대별 화장품 검색 트렌드를 보기도 하고, 상권에 따른 편의점 과일팩 판매 비중도 본다. 요일별 잘 팔리는 상품도 알아본다. 이러한 일반 분석과 달리 맞춤형 슈즈나 슈트, 고객 스타일처럼 개인화된 분석도 해본다. 그리고 다양한 기업들의 최신의 마케팅 방법도 알아본다. 


사실 '빅데이터는 어떻게 마케팅의 무기가 되는가'에서는 빅데이터 활용법을 직접적으로 알려주지는 않는다. 그것은 차라리 빅데이터 이론 책을 보는 것이 낫다. 이 책에서는 그보다는 여러 비즈니스에 적용할 수 있는 일종의 아이디어를 알려주고 있다고 보면 된다.  책에서 말한 각종 사례들을 통해 어디를 파고들면 되는지 힌트도 주고 있다. 비슷한 비즈니스라면, 벤치마킹하는 것도 좋을 것이다.


전부터 개발자 입장에서 빅데이터에 관련된 책을 자주 찾아 보고 있는데, 이론적인 것도 중요하지만, 실질적인 빅데이터 활용 측면도 어느 정도 알아야 한다고 생각한다. 그런 면에서 '빅데이터는 어떻게 마케팅의 무기가 되는가'는 다양한 시점을 가질 수 있게 해준 책이었다. 빅데이터가 마케팅에 강력한 무기가 되어 줄지, 아니면, 이쑤시개만도 못하게 될지는 많은 경험과 아이디어에 달렸다고 생각한다. 


댓글(0) 먼댓글(0) 좋아요(1)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
인재경영, 데이터사이언스를 만나다 - 인재 경영 과학자의 시대가 온다
김성준 지음 / 클라우드나인 / 2018년 7월
평점 :
장바구니담기



이젠 인공지능이 사람을 뽑는데도 관여를 하는 세상이 되었다. 감히 기계 주제에 사람을 뽑아 하는 욱하는 감정과 함께 영화 터미네이터의 우울한 세상이 현실이 되는 것이 아닌가 하는 우려를 하는 사람들이 많을 것이다. 


하지만 아직 그 정도로 우려할 정도는 아니다. 어차피 사람이 해도 지원자가 많은 경우, 회사 자체 기준에 따라 바로 탈락이라는 쓰레기통으로 직행하는 이력서도 태반이기 때문이다. 이런 단순 서류 분류 작업을 자동화했다 생각하면 된다. 오히려 사람이 놓칠 수 있는 이력서 베끼기를 철저히 찾아내고, 기준 적용 오류, 심사자의 사감정 개입을 줄여 공정성을 높일 수 있다는 장점도 있다. 




'인재경영, 데이터사이언스를 만나다'은 이렇게 데이터과학, 인공지능이 적용되고 있는 최근의 인사업무를 다각도로 살펴보고 있는 책으로 채용부터, 승진, 업무 평가, 인재 분석, 이직까지 인사 전반에 관련된 다양한 상황을 저자의 경험과 통계 지식, 국내외 사례 등을 담아 분석하고 있다.


'인재경영, 데이터사이언스를 만나다'는 크게 1부, 2부로 나뉘는데, 1부에서는 인재경영의 발전과정과 인사 관련 데이터 분석 기술과 적용의 어려움, 왜 데이터과학이 도입되게 되었는지 등을 말하고 있고, 2부에서는 데이터과학이 적용된 각종 인사관리 사례를 구체적인 통계 분석과 함께 알아보고 있다.


이 책은 '인사가 만사다'라는 말로 인사의 중요성을 강조하며 시작한다. 이는 기업의 성장과 발전, 몰락이 모두 사람에 달려 있다는 것으로 인재를 어떻게 뽑고 쓰느냐에 밀접한 관계가 있음을 말한다.  그런데 사람을 뽑는 기준부터 참 애매하다. 무조건 성적순으로 뽑을 수도 없고, 인성이 좋다고 뽑을 수도 없다. 뽑은 사람들이 회사에 진짜 도움이 되었다고 단언하기도 어렵다. 이런 애매함이 결국 인재경영에 과학화 도입을 가져왔고, 인공지능 적용까지 가져온 것이라 할 수 있다.


책 초반 공채제도 발전사에도 나와 있는 이야기로 과거에 삼성이 직원 채용에 관상가를 동원했다는 것은 다들 잘 알고 있을 것이다. 이걸 가지고 많은 이들이 미신을 신봉하는 삼성을 비웃어 왔다. 하지만 그만큼 사람 뽑는 게 어렵다는 것을 의미한다. '열 길 물 속은 알아도 한 길 사람 속은 모른다'라는 말이 있다. 현재 사람 속도 모르는데, 입사 지원자가 미래에 회사에 도움이 될지 해가 될지 어떻게 알겠나 생각한다면, 관상과 사주까지 동원한 면접은 오히려 다른 회사보다 통계적 과학적 접근을 했다고 말할 수도 있는 것이 된다.


인사관리 경험이 전혀 없는 나는, 저자의 살아있는 각종 경험 이야기를 보고서야, 사람관리, 특히 과학적인 인재관리가 얼마나 어려운 일인지 알 수 있었다. 공채로 뽑은 직원을 잘 뽑았는지, 잘못 뽑았는지, 수치로 만드는 게 왜 어려운지, 한 사람의 성과를 어떻게 점수 매기는 것이 좋은지, 임원은 어떻게 평가할지, 처음엔 별거 아닐 거라 생각했던 모든 것들이 조금만 깊게 들어가도 머리가 아플 정도로 복잡했다. 왜 인사관리에 심리학자, 통계학자, 데이터학자가 등장할 수밖에 없는지 알 수 있었다. 수학처럼 1+1=2 라는 결론을 도출하기에는 너무나 많은 변수가 있었고, 정량적으로 측정할 수 없는 요소들이 많았다. 이는 초반에 말했던 기계가 감히 사람을 측정해라는 불쾌감을 잊게 만들었다. 오히려 그동안 너무 원시적으로 사람을 관리해 온 게 아니었나 하는 생각이 들었다. 


솔직히 내가 이 책을 본 목적은 단순히 인공지능을 어떻게 이용해서 면접을 보는 것인지 알고리즘이나 프로그램, 시스템 환경같이 속 알맹이만 알고 싶었다. 그런데 오히려 그건 그리 중요하지 않았다. 인사관리 전반에 대한 이해와 함께 사람의 심리가 더 큰 부분이었다. 게다가 미래에 돌발할 수 있는 갖가지 변수들은 계량할 수 없는 요소여서, 결국 일반적인 통계적 추측을 뛰어넘을 수 없음을 알 수 있었다. 구글이 승진 예측 모형을 거부한 이유도 이러한 요소들이 있었기 때문이었다.


만일 어떻게 어떻게 해서 과학적인 인재경영 시스템을 만들었다 해도, 이게 모든 회사에 적용될 수 있는 것이 아니라는 것도 문제다. 인공지능 딥러닝도 결국 데이터 학습을 하는데, 이게 조직의 편견과 주관도 학습을 한다는 것이다. 세부적 요소도 결국에는 사람이 건드리는 부분이라서, 사람이 효율을 위해 IT 도구를 이용하는 정도인 것이지, 애니나 영화에 나오는 거처럼 컴퓨터가 알아서 모든 것을 하는 것이 아니라는 것이다.


책을 읽다 보니, 과학화의 필요성에 의구심이 드는 반대 사례도 떠올랐다. 이름 쓴 종이를 선풍기로 날려 인사관리하고, 직원이 신입사원을 뽑는 일본의 미라이 공업 말이다. 이렇게 어처구니없는 인재경영을 해도, 창업 이후 연속 흑자에 이익률 경쟁업체 5배라고 하니 말이다. 


결국 그동안 많은 연구가 있었어도, 인재경영 과학화의 길은 아직 멀었다는 것을 의미한다. 그러나 분명히 우리 앞에 다가올 미래이다. 그리고 저자가 마지막 에필로그에 적었듯이 기술의 논리에 모든 생각이 함몰되지 않고 '인간 존재 가치' '인간의 영역'을 주체적으로 고민해 나가야 한다는 점도 잊지 않아야 한다.


'인재경영, 데이터사이언스를 만나다'를 보면서, 인사 파트가 이렇게 많은 통계적 지식이 필요하다는 것에 놀랐다. 데이터과학이 인재관리에 이렇게 쓰인다는 것을 제대로 맛도 볼 수 있었다. 그리고 자연스럽게 많은 생각을 하게 해준 점도 좋았다. 내가 오너라면, 내가 인사담당자라면 하는 상상도 해보고, 삼국지의 유비와 조조를 비교하며 어떤 인재관리 스타일이 좋은 건가도 생각해 봤다. 과거, 현재, 미래를 종합적으로 생각해보게 만든 책이었다. 


댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터 과학을 위한 통계 - 데이터 분석에서 머신러닝까지 50가지 핵심 개념
피터 브루스.앤드루 브루스 지음, 이준용 옮김 / 한빛미디어 / 2018년 10월
평점 :
절판



현재 IT 대세 빅데이터와 인공지능에서 꼭 필요한 공부가 있는데, 그게 바로 통계다. 이 분야에서 통계는 선택이 아닌 필수이자 기본으로 갖추어야 할 기본 능력인 것이다. 그런데 통계 공부가 참 쉽지 않다. 배워야 할 것들이 많다 보니, 학습 분량도 많은 데다, 단순히 계산만 잘한다고 통계를 잘한다고 할 수 없다. 분석 목적에 맞는 올바른 통계 방법을 적용할 줄 아는 다양한 실무 경험도 필요하다. 자칫 잘못하면, 전혀 엉뚱한 결과를 도출할 수 있기 때문이다. 특히 데이터 과학을 하는 사람은 통계학, 정보기술, 적용 분야 등을 아우르는 전문지식이 있어야 한다. 이는 통계학을 연구하는 수학자와는 통계학을 보는 입장이 다른 것이다.


'데이터 과학을 위한 통계'는 바로 그런 차이를 담은 책이다. 데이터 과학자를 대상으로 하는 책으로 통계의 핵심 개념을 전반적으로 총정리 해놓았으며, 데이터 과학의 관점에서 통계학을 다루고 있다.




따라서 책 처음부터 수학으로서 통계보다는 데이터 분석이라는 입장에서 통계의 역사를 보고 있으며, 통계학자와 데이터 과학자들이 쓰는 용어 차이와 개념을 곳곳에서 이야기하고 있고, 심지어 비슷해 보이는 컴퓨터 과학과 정보공학에서의 그래프라는 용어가 어떻게 다르게 쓰이는지도 말하고 있다. 이게 왜 중요하냐 할 수 있지만, 이는 기구 설계 단위로 미터법을 쓸 것이냐 인치법을 쓸 것이냐 하는 것과 같이 가장 기본적인 단위를 맞춰 같은 생각을 공유하는 것과 같은 것이다. 책 곳곳에 CAUTION으로 이런 차이에 주의를 주고 있는데, 비슷한 분야에 같은 단어, 같은 용어인데도, 다른 의미를 가지는 것을 보면, 신기할 정도다. 용어의 혼동을 피하기 위해서 주의 깊게 봐야 할 부분인 것이다.


이런 용어 정리처럼 '데이터 과학을 위한 통계'에는 잘못된 통계 이해에 관한 부분도 말하고 있다. 통계적 유의성에 나오는 p값이 그 예일 수 있다. 심리학 저널 경우 p값 사용을 금지까지 할 정도였다. 통계의 잘못된 이해로 잘못된 논문 결과를 야기한 것이다. 이를 바로잡기 위해 미국통계협회에서 연구자와 저널 편집자를 위해 성명서까지 낼 정도다. 이처럼 책에서는 기존의 통계학 책에서 볼 수 없었던 실무 차원에 도움이 되는 전문적인 내용들이 담겨 있다. 


그런데 '데이터 과학을 위한 통계'를 보기 위해서는 기본적으로 R 프로그래밍 언어를 알고 있어야 한다. R에 대한 별다른 설명없이 바로 R 코드를 이용한 각종 예제들이 나오기 때문이다. 어려운 것들은 아니지만, R을 전혀 모를 경우, 책을 온전히 이해하는 데 걸림돌도 될 수 있고, 읽는 재미도 반감할 수 있다.




또 한 가지는 이 책은 통계를 기본부터 가르쳐주는 책이 아니다. '데이터 분석에서 머신러닝까지 50가지 핵심 개념'이라는 부제에 나와 있듯이 이 책은 통계를 기초부터 알려주는 책이라기 보다, 기존에 알고 있는 통계 지식을 전체적으로 정리하고 점검하는 용도의 책이라고 보면 맞다. 통계 용어, 공식, 개념 설명, 적용 사례, 그래프 보는 법, 샘플과 같은 것들이 잘 나와 있지만, 주요 핵심 개념 위주라서 학습서처럼 익히기에는 한계가 있다. 물론 독자의 통계 학습에 도움을 주기 위해, 각 단원마다 '더 읽을 거리'를 두어, 관련된 각종 책과 논문을 언급해 놓고 있다는 점은 이 책이 가진 한계를 보완하기 위한 저자의 꼼꼼한 배려라고 볼 수 있다.




'데이터 과학을 위한 통계'는 화려한 풀컬러로 지루한 수학책의 단조로움을 피하고 있다.  그만큼 코드나 그래프를 보기 편하다. 그리고 각 파트마다 '용어 정리'란이 있어서, 꼭 익히고 점검할 용어를 강조해놨다. 이 부분을 제대로 보지 않으면, 내용 이해가 제대로 안될 수 있으므로 몇 번이고 다시 봐야 할 부분이다. '주요 개념'에서는 각 소단원 내용을 정리하고 있어 다시 한번 핵심 정리하게 하고 있으며, 'TIP', 'NOTE', CAUTION'을 통해 추가 정보나 보강 설명을 하고 있다.


여러 예제와 함께 간결한 설명으로 되어 있는 '데이터 과학을 위한 통계'는 통계를 전체적으로 훑어보기 좋은 책이다. 특히 인공지능, 머신러닝, 빅데이터 등과 관련된 데이터 과학을 공부하거나 그쪽에 일하는 사람들에겐 통계 지식 정리와 함께 바른 통계 적용에 좀 더 실질적인 도움을 주는 책이라 생각한다. 



댓글(0) 먼댓글(0) 좋아요(0)
좋아요
북마크하기찜하기 thankstoThanksTo