빅데이터를 지배하는 통계의 힘 : 실무활용 편 - 쉽고, 빠르고, 정확한 통계 활용법 빅데이터를 지배하는 통계의 힘 시리즈
니시우치 히로무 지음, 신현호 옮김, 홍종선 감수 / 비전비엔피(비전코리아,애플북스) / 2015년 8월
평점 :
구판절판


빅데이터를 지배하는 통계의 힘이라는 책 제목에 혹 해서, 예를 들어 구글이나 통신사 차원의 빅빅빅 데이터 분석의 실례를 볼 수 있는 책일거라고 생각해서 읽기 시작했는데, 그게 아니라 통계의 실무 활용에 관한 책이다. 예전에 통계 분석 관련된 작업이 필요해서 이런 저런 책을 읽었었는데, 다소 간단한 통계에 대해서는 그 수식이 수학적으로 풀리는 과정을 겨우겨우 이해한다고 치더라도, 그것의 진정한 의미가 뜬구름처럼 잘 잡히지 않았었는데, 이 책은 통계학에 대한 이해적인 측면에서 매우 훌륭하게 설명되어 있다. 


우선 이 책이 나오기 전에 같은 출판사, 같은 저자의 동일한 책 제목(빅데이터를 지배하는 통계의힘)의 책이 출간되어 있는데, 그 책도 좋다고 소문이 나서 샀는데, 읽지 않고 묵혀두었는데 저자에 의하면 그 책은 입문을 위한 입문서의 성격이 강하다고 한다. 즉 통계의 실제라기 보다는 입문을 위한 통계 분석의 역사적 배경과 분석 방법의 발전에 대한 인문서적인 성격을 띠고 있었다면, 이 책은 실제 통계를 비지니스에 활용하고자 하는 독자에게 유용한 책이라고 한다. 실무 활용편이라고는 하지만 이 책 역시 입문서인 앞부분에 성격을 띄고 있고(도대체 통계가 얼마나 복잡하다는거야?) 전편을 보지 않고도 충분히 단독적으로 활용가능하게 자세히 기초적인 이해를 바탕으로 설명한다. 


이런 책이 유용한 것은 분석 방법을 많이 알고 있고, 각종 통계 도구를 이용하는 법을 잘 알고 있다는 것, 그리고 통계학의 수학적 분석 방법에 대해 깊이 있게 이해하고 있다는 것이 그것을 실제로 어떻게 활용해서 어떤 가치를 창출하는 것과는 다르다는 데에 있다. 그런 면에서 볼 때, 통계학은 인문학의 성격을 띠고 있다고도 말할 수 있다. 오늘날과 같이 쉽게 대량의 데이터를 수집할 수 있는 디지털 환경에 노출되어 있는 경우, 데이터들이 잔뜩 수집되어 있는데, 그것에서 어떤 통찰을 얻어낼 수 있는가는 개념에 대한 단단한 이해가 기반이 되지 않고는 가능하지 않다. 저자 서문에서도 분명하게 밝히고 있지만 이 책은 '인간을 통찰하고 그 행동이나 자세를 조금이나마 변화시키는 데 목적을 두고 있다'.


다양한 계층의 사람들이 다양한 이해관계에 얽히고 설켜 살아가는 복잡한 현대 사회에 있어 의사 결정 과정의 메카니즘이 한두가지 사유로 결정되지 않는 오늘날, 어느 한쪽의 작용에 의해 뭔가를 바꾼다는 것은 어렵다. 마찬가지로 어느 현상의 원인이 어느 한 쪽의 원인이라는 인과관계는 의심의 여지를 많이 남긴다. 통계는 인과관계와, 현상파악을 할 뿐 아니라 미래를 예측하는 기능을 한다. 그런데 실제로 빅데이터에서의 예측이라는 것은 인과관계보다는 단순히 상관관계만을 따지는 경우가 많고, 전통적인 일반 통계학에서 다루는 엄밀하고 조직화된 데이터가 아닌 빠지고 부정확하고 들쑥날쑥하고 포맷없이 돌아다니는 데이터 산더미들에게서 얻는 자료들로 얻어지기 때문에, 사실 이 책에서 다루는 내용과는 다룬다. 무엇이 무엇을 야기시켰느냐의 인과관계의 문제는 매출 및 비지니스의 이익을 극대화시킬 수 있다.


이 책이 다루는 분석의 범위는 '대다수 직장인들'에게 필요한 기본적인 분석 방법을 다룬다. 여기에는 현상 파악과 그 배후에 놓인 인과관게에 대한 통찰이 포함된다. 수식 없이 문장만으로 통계 분석 방법의 본질적 이해를 향해 가이드하고 있고, 이미 고등학교나 대학에서 통계학을 교양으로 배운 사람들에게는 터무니 없을만큼 기본적인 것부터 차례차례 짚고 넘어간다. 


예를 들어 평균과 중앙값과 같은 것들의 서로 다른 개념이 어느 상황에 적절한지, 그리고 왜 평균이 현상의 통찰에 중요한 것인지부터 시작한다. 흔히 쓰는 평균과 표준편차오차범위 , 신뢰수준과 같은, 아는 것 같으면서도 실제로는 제대로 아는 게 아닌 기본적인 개념부터 차근차근 설명하는데, 이 부분은 선거 때 뉴스를 이해하는 데도 도움이 될 것 같아서 간단히 정리해본다. 


평균에서 벗어난 정도는 양과 음이 존재하므로 제곱을 이용하여 분산을 나타내는데,  즉 벗어난 값의 제곱합의 평균이므로, 다시 제곱의 평균에 제곱근을 씌워 표준편차를 나타낸다. 표준편차는 원시 데이터 자체의 불규칙성을 나타낸다. 


오차범위라는 말을 편한 대로 막 쓰는데, 통계에서는 데이터 수나 불규칙성을 바탕으로 정확히 계산해야 한다. 한정된 데이터를 통해 얻어진 평균 또는 비율이 참값으로부터 얼마나 멀어져있는지를 나타내는 것이 통계학적 오차다. 당연한 말이지만, 데이터의 불규칙성이 클수록 평균의 차이도 커진다. 원시데이터의 표준편차를 평균값 계산에 사용한 데이터수의 제곱근으로 나눈 값이다. 그러므로 표준오차는 항상 표준편차보다 작게 되며, 계산에 사용된 데이터가 커질 수록 작아진다. 평균과 표준편차를 사용하면 다음 조사에서 어느 정도의 표준오차를 하기 위해 어느 정도의 데이터 수가 필요한가를 예측할 수 있다. 그림에서처럼 표본크기가 4일때 표준오차가 500인 반면 표본 크기가 100일 경우 100엔으로 급격히 떨어지지만 500명 이상부터 2500명까지의 데이터 수에는 표준 오차에 아주 작은 변화만 있을 뿐이다. 비율의 경우에는 어떤 상태를 취하는가 취하지 않는가를 나타내는 데이터의 평균값이다. 이 말은 수학적으로 데이터의 분산 = 비율 x (1-비율)이며, 이 비율 역시 표준편차를 표본크기의 제곱근으로 나눈 평균값의 관계식과 같게 된다. 


독일의 C.헴펠이 1940년대 지적한 까마귀의 역설은 아무리 많은 검은 까마귀를 보여주더라도 검지 않은 까마귀가 없다는 반증을 할 수 없으므로 증거가 되지 않는다는 반론에 반박할 수 있는 결정적 증거를 대지 못한다. 모든 ...는 ~~이다 라는 표현은 '전칭성'이라는 용어를 사용하는데, 확률을 도입하면 모든 대신 거의 모든이라는 생각도구를 사용할 수 있다. 이 때 모든 까마귀는 다 검다라는 가설을 완전히 뒤짚어 없는 가설이, 무로 돌려보낸다는 뜻으로 귀무가설이고, 귀무가설에 반하는 데이터가 얻어지는 확률이 p-값이다. 즉, 까마귀는 검다는 가설을 주장하고 싶을 때 모든 까마귀는 검지 않다는 귀무가설의 확률을 나타낸다. 즉 귀무가설이 매우 작으면 그 귀무가설은 존재할 수 없으므로 원가설이 참이된다. p-값이 매우 작아야 하는 까닭인데, 선거 때 TV에서 자주 듣는 5% 내외의 신뢰수준이라는 말은 대략 귀무가설이 20번에 1번 정도밖에 일어자지 않는다는 말이다. 즉 어디까지가 존재할 수 없고, 어디부터가 부정할 수 없는가 하는 구간이 귀무가설이다.


통계학도 범위가 커서, 어디까지 커버하느냐가 관건인데, 여기서는 앞에서 말한 통계의 가장 기본적인 검정방법부터 회귀분석과 인자분석까지를 다룬다. 특히 다양한 설명변수를 한꺼번에 분석해주는 다중회귀분석 로지스틱 회귀분석은 입문적인 일반 통계학에서는 배우지 않기 때문에 특별히 강의를 수강하지 않고는 이해하기가 다소 난해할 수 있는데, 이 책에서는 개념에셔부터 실제 투입과 산출까지 잘 설명하고 있다. 


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
그것이 나만은 아니기를 - 2015 제39회 오늘의 작가상 수상작
구병모 지음 / 문학과지성사 / 2015년 3월
평점 :
장바구니담기


모든 신화와 실화와 민담 속에는 환상과 현실이 교차하는 지점이 있다. 몽롱한 이상은 고단한 현실을 대가 없이 위로한다. 그렇지 않나. 이루어질 수 없는 사랑, 만져볼 수 없는 부는 상상 속 소망과 기적을 동원해 화려한 삶, 영원한 생명, 충족된 사랑에 대한 간접 경험은 시간과 공간과 모든 물리학적 법칙들을 벗어나는 곳에 떠 있기에 인간이 꿈꿀 수 있는 것 아닐까. 문학은 아마도 이야기 속에서 공감을 통해 만질 수 없는 것들을 경험하는 기쁨을 충족시키면서 출발했을 것이다.


거대하게 품은 이상은 차치하더라도, 소박한 현실적 필요마저도 충족되지 못한 삶 속에 끝내 갇혀 버린다면, 벼랑 끝에 아슬아슬 서서 버텨보지만 지탱하고 있는 그루터기 마저 흔들린다면, 힘겹게 이어온 우리의 여정이 향할 곳은 어디일까? 신화의 시대를 지나서 종교의 시대를 지나서, 과학과 물질 문명의 시대를 사는 우리들이,  현실적으로 불가능한 것들, 기적과 마법 같은 것들로 기댈 수 있는 서사는 무엇일까. 고행과 인내의 페이지를 넘기고 또 넘겨 도달한 현실의 마지막 페이지를 살짝 넘긴 곳 그곳에 작가가 새긴 신기루는 바로 이 글을 읽는 독자들이 끝내 눈물을 뿜으며 거부하는 곳, 내게만은 일어나지 않기를 바라는 그 비루한 일탈이 내딛는 환상의 공간이다.  그것은 바람일까. 소망일까. 일장춘몽의 꿈일까. 도피일까. 죽음일까.


우리가 알고 있는 동화에서는 그림 속으로 발을 딛고 들어가면 그곳엔 온갖 기이하고 신기한 모헙들이 흥미롭게 우리를 기다리고 있다. 천진하게 우산을 타고 내려온 메리 포핀스도 그림 속에서 멋진 데이트를 한다. 구병모의 소설 속 미연이 들어간 그림은, 거리의 한 구석을 점령한 채 허접하게 걸어놓은 전시회에서 발견한, 루초 폰타니의 공간개념 연작을 모방한 이름 모를 작가의 작품이다. 주워 입은 셔츠를 걷어올려 길바닥에서 젖가슴을 드러내놓고 아기의 젖을 물려야 하는 그녀는 주운 유모차에 아기를 버려둔 채로 그림 속의 칼자국 속으로 들어가 버린다. 어린 아기와 미친 시누이에 대한 '의무'로부터 도피하고자 했던 행동은 아니다. 모작이기는 했지만, 어둠이 몰려오자, ‘그 뚜렷한 칼자국의 명암 사이로 어둠이 만들어 내는 알 수 없는 생명’과 ‘암부 깊은 곳의 소실점’을 느낀다. 사라지는 지점이라니, 그곳이 자신이 가장 원하는 곳일지도 모른다는 생각으로 아무렇게나 방치되어 있는 그 그림의 칼자국 속으로 손을 넣어보고, 몸을 넣어보자, 그림 뒤편으로 걸어 들어갈 수 있었고, 그곳은 대단한 마법이 존재하는 곳이 아닌 캔버스 뒤편일 뿐이다. 


그림으로 들어간다고 한들, 완전한 소실점은 없다. 만져질 수 없는 환상이 도착한 곳이 그 대단할 것 없는 과거,  어디에서나 평범하고 남루한 세계, ‘보도 블록의 요철 위로 분주한 소음과 무기력이 피어오르는 세계’, '언제고 일상에의 대항과 반란이란 이런 식으로 끝날 수밖에 없음을 확인시켜주는', 지극히도 현실적인 세계인 것이다. 비루함의 그림자가 언제 어떻게 시커먼 날개로 다시 삶을 삼키려고 덤벼들 지 모를, 그 비정하고 매정한 곳, 그러나 그곳에서 그녀는 3분마다 한 번씩 보인다는 3분백을 들고 입어본 적이 없는 까만색 실크 블라우스를 입고 있다. 어디를 가고 있던 중이었는지를 잊고, 아기도 시누이도 잊고, 돈이라고는 집에 굴러다니는 동전까지 모두 합쳐봤자 버스비도 나오지 않는 집구석도 모두 잊는다. 그 소실점 속에서 가고 있던 곳이, 다시 또 그 가능성 없는 희망 고문으로 지나왔던 시간을 채우게 될 변할 것 없이 똑같은 과거의 어느 시점이라는 사실이 끝없는 타임 패러독스를 연상시킨다. 


이 소설이 끝끝내 슬픈 건, 아기를 잊고 그림의 칼자국 속으로 들어간 세계가 누추하기는 마찬가지라고 해도, 어느날 전도유망한 신인작가가 되기 위해 작업실을 다른 세 명의 미술가들과 나누어쓰고 있고 그곳으로 향해 있다고 해서, 그곳에서 지금과는 다른 삶을 살 수 있을까라는 질문에 담할 수 없는 사회 구조다. 운명처럼 짐지워진 젊은 청춘들이 맞닥뜨린 오늘의 세계다. 그림 속 다음 번에 찾아올 인연과 우연의 조합들은 그 차고 두꺼운 사회 구조의 벽을 허물어서, 다시 또 연애를 하고 남편을 만나서 아기를 갖고 지울 돈이 없어서 결혼을 하고, 세번의 사업 실패후 가뜩이나 어려운 친정집 재산까지 홀라당 말아먹는 현실이 기다리지 않는다는 철벽같은 보장을 줄까.


구병모의 소설집에 등장하는 사람들은 이런 방식, 즉 소멸점 속으로 사라지는 방식으로 현실을 고발한다. 극복이거나 타협일 수도 있겠다. 그것이 현실적인 눈으로 볼 때 정신이상이거나 도피이거나 혹은 죽음이 본 마지막 환영이더라도 말이다. 아무리 최선을 다해 살았대도, 더는 살아갈 방도가 없는 막다른 길이 나타나는 것이다. '꿈이 없다고 해서 현실이 있냐 하면 눈앞에 있기야 있지만, 없는셈 치고 싶은 현실뿐'인 사람들이 그 현실의 연장선에서 일어나는 환상은 막다른 골목 끝 컴컴하고 섬뜩한 끝을 다룬다. 


그것이 나만은 아니기를에 실린 인물들이 사회 구조의 어느 구석진 그물 망 속에 걸려 허우적거린다는 공통점이 있지만 그들은 또한 대부분 소외되고 핍박받는 최하층의 육체 노동자가 아니다. 쓸모없는 박사학위 긴 가방끈을 교수들의 잔심부름에 착취당하는 <여기말고 저기, 그래 어쩌면 거기>의 화자는 충격스런 엄마의 죽음에 대한 기억을 가진 친구 하이의 건물 기어오르기에 관한 기이한 행동과 그에 따른 사고와 외상을 다룬다. <식우>는 G시에서 일어나는 부식성 비로인해 그 도시의 모든 것이 무너져내리는 디스토피아적인 세계를 비정하게 그려내고, <이장>은 학대 의혹을 지울 수 없는 아이의 죽음을  바라본 어느 '폭력적 오지라퍼' 네티즌의 시각을 다루고, <덩굴손증후군의 내력>은 도시의 건물마다 억세고도 거세게 빠른 속도로 퍼지고 있는 덩굴식물이 소외되고 착취당하는 사람들이 변해서 된 과정과 그 바로 산 사람의 얼굴을 가진 덩굴식물들을 제거해 나가는 비정한 사회의 모습을 담고 있다.


짧은 단편에 개인의 불행을 끝까지 밀어부치는 서사의 힘은 일어날 수 없는 기이한 현상을 만들어내는 환상적 상상력과 결합하여, 그것을 바라보는 타자들의 시각을 차갑게 조명한다. 한 개인으로서 독자로서 소설을 읽을 때, 내가 그들이 아니어서 다행이다 라는 자각이 사실은 내가 아니기를 바란 그들을 옭아 매는, 그들을 소외시키는 사회 속 그물코를 형성하는 구조 자체임을 발견이기도 하다. 어째서, 왜 불행한 누군가가 존재해야 하는가에 대한 대답속에는 사실은 그 이유를 알고 싶지 않은, 그것이 나 만은 아니기를 바라는 비정한 시선도 함께 있음을 인정한다면, 나는 무엇을 할 수 있을까. 





댓글(0) 먼댓글(0) 좋아요(3)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 

지난주중 및 주말에 읽은 책은 리뷰를 못썼는데, 이 중에서 《책공장 베네치아》와 《시대를 훔친 미술》 두 가지가 약간 통하는 게 있기도 하면서 서로 매우 다른 책이었지만 둘다 모두 좋았다. 시대를 훔친 미술》은 한참 전에 사서 반 정도 읽다가, 어제 처음부터 다시 읽기를 했는데, 또다시 반쯤 읽고 마저 다 못읽었다. 르메상스 이후의 역사를 그림을 통해 배우고, 구텐베르크 이후 세계 최대의 책의 도시였던 베네치아에서 배운다.









《유럽vs유럽》은 시원시원한 유럽 각 명소들의 사진이 인상적이다. 《파수꾼》은 《앵무새》에 비해 지루했지만 하퍼 리가 평가하는 미국 남부의 세계를 보다 단순히 흑백차별의 논리에서 뿐만 아니라, 연방정부와의 갈등 화이트 트레쉬들과 흑백의 인구 문제 등과 관련되어 정교하게 이해하는 데 도움이 되었다. 통계책은 빅데이터 관련된 책인줄 알고 읽기 시작했는데, 통계의 개념에 대해 이야기하는 책으로 이 계통에서는 별 만점의 가치가 있는 좋은 책이다.





 우연히 주말 스크린 채널에서영화 《타임 패러독스를 본 후, 앞부분을 놓친 게 아쉬워 원저자 로버트 A. 하인라인 저작의 책들을 둘러보다가, 《SF 명예의 전당》4권 세트를 구입하였다. 1920년대부터 미과학소설작가협회가 탄생한 1965년까지의 명SF 소설들중 단편 15편(1,2권)과 중편8편(3,4권)을 엮은 책이다. 한 권당 2만원인데, 이북은 권당 50% 할인이고 또 4권 세트의 이북은 더 싸져서 3만원인데, 거기에 쿠폰과 적립금까지 먹혀서 2만7천원 거의 한권 반 가격에 구입하였다. 오랜만에 할인 구입의 짜릿함을 비록 이북이지만 구입하고, 요기 조기 단편이라 하나씩 골라 조금씩 쬘끔쬘끔 맛보기 읽기를 하였다. 




이번달에 읽은 소설은 우리가 볼 수 없는 모든 빛 세트, 네메시스, 한국이 싫어서, 가짜 팔로 하는 포옹, 복종과 SF 명예의 전당에서 읽은 단편 2편 존 캠펠의 어스름(Twilight), 로버트 하인라인의 길은 움직여야 한다, 그리고 파수꾼까지. 우리가 볼 수 없는 모든 빛이 가장 좋았고, 김중혁 작가의 가짜 팔로 하는 포옹도, 그리고 복종도 의미 있었다. 


비소설은 자동차 정비교과서, 자동차 구조교과서, 편견이란 무엇인가, 괴물의 심연, 외계지성체의 방문과 인류종말의 문제에 관하여, 비비안 마이어의 셀프포트레이트북, 세상을 향한 눈과 아직 리뷰를 쓰지 않는 위의 네 권까지. 편견이란 무엇인가는 내게 너무 어려웠고, 자동차 교과서는 유용했고, 괴물의 심연은 흥미로웠지만, 이달의 위너는 세상을 향한 눈이 되시겠다. 

다시 가장 좋았던 책을 기준으로 별점을 매겨보면 

우리가 볼 수 없는 모든 빛  ★★★★★

SF 명예의 전당                ★★★★★

세상을 향한 눈                ★★★★★

시대를 훔친 미술             ★★★★☆

책공장 베네치아              ★★★★☆

내가 가고 싶은 유럽 유럽   ★★★★☆

빅데이터를 지배하는 통계의 힘 ★★★★☆

가짜 팔로 하는 포옹        ★★★★☆

복종                            ★★★★☆

자동차 정비교과서          ★★★★ 

자동차 구조교과서          ★★★★

네메시스 

한국이 싫어서, 

파수꾼

편견이란 무엇인가 
괴물의 심연 
외계지성체의 방문과 인류종말의 문제에 관하여 
비비안 마이어의 셀프포트레이트북 



댓글(0) 먼댓글(0) 좋아요(7)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
그믐, 또는 당신이 세계를 기억하는 방식 - 제20회 문학동네작가상 수상작
장강명 지음 / 문학동네 / 2015년 8월
평점 :
장바구니담기


살인, 시간, 기억, 사랑, 속죄이라는 강렬한 소재를 장강명의 깔끔한 문체로 비벼섞은 작품은 어떨까. 주문완료

댓글(0) 먼댓글(0) 좋아요(1)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 
호모도미난스 - 지배하는 인간
장강명 지음 / 은행나무 / 2014년 10월
평점 :
장바구니담기


몇일전 2014년 영화 타임 패러독스를 스크린 채널에서 본 후, 로버트 A. 하인라인의 원작을 읽고, SF 명예의전당 4권 세트를 구입했다. 장강명 작가가 입에서 착착 달라붙는 우리말로 쓴 SF는 어떨까.

댓글(0) 먼댓글(0) 좋아요(0)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo