지난 포스팅의 마지막 부분에서 모수적 검정 기법과 비모수적 검정 기법에 대해 살짝만 살펴 봤었는데, 오늘은 이에 대해 좀 더 살펴본다. 두 검정 기법에 대한 개념적인 것들은 지난번 포스팅에서 어느정도 다루었기에 오늘은 어떤 상황에 적용하는지에 대해 먼저 알아보고 이어서 뒤에 나오는 내용들로 넘어가고자 한다.

(이 책의 맨 앞에 나왔던 평균, 분산, 표준편차 그리고 귀무가설, 유의수준 정도까지는 그럭저럭 괜찮았던 거 같은데 지금 나오는 모수와 비모수 검정부터는 뭔가 조금씩 머리가 지끈지끈 해지는 느낌이 슬슬 올라온다. 이해하려고 애써 보겠지만 역시 통계라는 게 결코 호락호락하지 않음을 느낀다. 그래도 저자분께서 가급적 친절하게 설명해주시니 믿고 가봐야 겠다.)
.
.
.
이어지는 내용에서는 윌콕슨 순위합 검정과 만-위트니 검정이라는 것이 나오는데, 개인적으로 둘 다 처음보는 개념이라 생소하기는 했지만 저자께서 이해하기 쉽게 예시를 들어 설명해주셔서 낯설긴 했지만 이해하는데는 크게 무리가 없었던 것 같다.

또한 위의 두 검정에 더해 크루스칼-왈리스 검정이라는 것도 나오는데 이것은 모수적 검정에서 3개이상의 그룹을 비교분석하는 분산분석에 대응되는 비모수적 검정이라고 한다. 책에 간단한 사례가 나오는데 이 또한 초심자가 이해하기에 무난하도록 저자께서 배려를 많이 해주셔서 잘 이해할 수 있었다.


p.109, p.110에 밑줄친 내용은 데이터 분석가 혹은 과학자가 되기 위해 무엇을 공부해야 하는가에 대한 저자의 답변 중 일부이다. 여기에 더해 저자는 사람들과의 원만한 커뮤니케이션 능력을 갖추는 것의 중요성도 역설한다.
.
.
.
절을 바꿔서 이어지는 내용에서는 분류와 군집이라는 개념이 등장하는데 이 둘의 가장 핵심적인 차이는 체계가 정해져 있는가 아닌가이다. 이미 정해진 체계 혹은 기준이 있으면 분류라고 하고, 아직 정해진 체계 혹은 기준이 없을 때 새롭게 체계나 기준을 확립하고 유사한 속성끼리 그룹을 구성하는 것은 군집이라고 한다. 저자는 많은 사람들이 이 두 용어를 혼동해서 사용하고 있기에 구체적인 개념을 설명하는데 지면을 일정부분 할애한 것으로 보인다.


분류와 군집에 대한 개념 설명 이후에는 유사도 similarity 라는 것과 함께 이것을 측정하기 위한 ‘유클리드 거리‘가 소개된다. 여기 일일이 밑줄치진 않았지만 다양한 사례들을 통해 어렵지 않게 개념을 익힐 수 있었다. 추가적으로 맨해튼 유사도, 코사인 유사도 같은 개념들도 소개되어서 유사도를 측정하는 방식이 한 가지만 있지 않고 여러가지 방식이 존재함을 알 수 있었다.

모수적 검정 기법과 비모수적 검정 기법의 선택은 어느 쪽이 우월하고 어느 쪽이 정확도가 높은지가 아니라 상황에 적절한 검정 기법이 무엇인가의 문제다. - P90

일단 데이터가 적은 상황은 배제한다. 데이터 홍수의 시대에 데이터가 적은 상황은 그리 흔치 않기 때문이다. 그래서 모든 분석에 앞서 데이터가 충분히 확보된다고 가정하고 모수적 검정을 수행한다. 그렇게 해서 나온 분석 결과를 2차 데이터로 재활용해 분석하는 경우에는 이 데이터가 반드시 정규분포를 따른다고 가정할 수 없으므로 비모수적 분석을 수행한다. 그러나 1차 분석에서 관측이나 실험의 결과가 서로 다른 환경에서의 독립된 표본이라면 당연히 비모수적 검정을 수행해야 한다. - P90

서열과 부호를 기준으로 한 비모수적 검정은 수학 지식의 깊이나 특별한 통계 지식을 요구하는 경우가 적다. 또한 순위가 명확하므로 잘못된 분석 결과를 도출할 가능성이 적다. 하지만 비모수적 검정은 정규분포를 가정해 나타내지 않기 때문에 표본이 모집단을 대변한다 하기에는 부족하다. - P91

또한, 분석 대상이 정규분포를 따르지 않으면 심각한 오류를 범하게 된다고 오랫동안 믿어 왔기 때문에 비모수적 검정은 모수적 검정보다 개발된 방법론이 극히 적다. - P91

지금까지 설명한 모든 통계 검정은 모수적 검정이었다. - P91

스피어만 상관계수Spearman‘s rank correlation coefficient 또는 Spearman‘s rho는 영국의 심리학자인 찰스 스피어만 (Charles Edward Spearman, 1863~1945)이 고안한 비모수적 상관분석 기법이다. - P91

스피어만 상관분석은 두 변인(변수) 간의 순위를 부여하고 연관성을 검정하는 기법으로, 피어슨 상관분석과 같이 -1 에서 1 사이의 값(계수)을 갖는다. 보통 피어슨 상관분석을 곱적률 상관분석이라고 하며 스피어만 상관분석을 순위 상관분석이라고 한다. 간단히 표현하면 전자는 두 변인 간의 선형관계를 계수로 표현한 것이고, 후자는 변인 간의 순위를 부여한 값을 기반으로 분석을 한다. - P92

두 분석(피어슨 상관분석, 스피어만 상관분석)모두 두 변인 간의 연관성 정도를 -1에서 1까지의 값으로 표현한다는 점은 비슷하지만, 들여다 보면 약간의 차이가 있다. 단순히 모수와 비모수를 다루는 기법과 선형과 순위를 기반으로 한다는 점뿐 아니라 결괏값, 즉 상관계수에서도 그 차이를 찾을 수 있다. - P92

비례적 연관성을 검증하는 피어슨 상관계수 - P92

순위 비교를 통한 스피어만 상관계수 - P92

선형관계를 파악하는 피어슨 상관분석과 단순 순위 비교를 진행하는 스피어만 상관분석의 차이 - P93

같은 범주 내에서의 비교는 같은 환경이라 할 수 있지만, 다른 범주 간의 비교를 같은 환경이라 가정할 수 있을까? 즉, 언어 능력과 수리 능력의 상관관계가 같은 환경이라 할 수 있느냐 하는 문제다. 그래서 스피어만은 언어 능력의 순위를 정하고 다시 수리 능력의 순위를 정해 서로를 비교함으로써 상관관계가 존재하는지를 파악했다. 이것이 바로 G 요인general factor (인간이 어떠한 문제를 해결할 때 공통으로 작용하는 능력)을 발견하는 과정에서 비모수적 상관관계를 검정하는 스피어만 상관분석의 시작이었다. - P95

비모수적 검정 기법인 윌콕슨 순위합 검정wilcoxon rank sum test과 윌콕슨 부호 순위 검정wilcoxon signed rank test - P97

모수적 양측 검정 기법인 t-검정에 대응하는 비모수적 양측 검정의 하나가 윌콕슨이 정립한 순위합 검정이다. - P97

도출된 각 실험의 순위합을 비교한다. 두 실험의 결과가 비슷하면 순위합도 비슷하겠지만 결과가 서로 다르면 실험 결과가 한쪽으로 치우쳐 (중략) 두 순위합이 차이가 난다고 할 수 있다. 이것이 바로 윌콕슨 순위합 검정의 기본적인 배경이다. 물론 논리적인 전개는 단순 순위합을 비교하는 것으로 끝나지 않는다. 다만 이러한 발상으로 양측 검정이 충분히 가능함을 정립한 것은 실로 대단하다. - P99

때로는 단순함이 복잡함을 설명한다. - P99

윌콕슨의 순위합 검정은 독립된 집단의 결과를 통합해 정리하고 순위를 부여한 뒤 각각의 집단에 대한 순위합을 구해 비교하는 방식이다. - P99

순위합 검정은 아니지만 유사한 통계량을 사용하는 비모수양측 검정 기법이 있다. 바로 만-위트니 U 검정 Man-Whitney U-test, (이하 만-위트니 검정)이다. - P99

윌콕슨 순위합 검정은 전체 순위를 정하고 집단별로 순위의 합을 비교하지만, 만-위트니 검정은 두 집단의 관측값을 모두 일대일로 상대 비교한다. - P102

월콕슨 순위합은 말 그대로 순위의 총합을 구해 검정하고, 만-위트니 검정은 값들을 비교해 값이 큰 경우 해당하는 개수의 총합을 구해 검정한다. 두 기법은 비모수적 양측 검정 기법으로 관측하거나 실험한 값이 서로 다른 환경의 독립적인 결과여야 하고, 어느 쪽이 크다는 서열을 표시할 수 있어야 한다. - P103

모수적 검정에서도 확인했지만 세상에 비교 대상이 두 집단만 있는 건 아니다. 비모수적 검정에서도 2개 이상의 집단을 비교해야 하는 일은있다. t-검정을 상대할 윌콕슨 순위합 검정과 만-위트니 검정이 있다면, 분산분석을 상대하는 데는 크루스칼-왈리스 검정 Kruskal-Wallis test이 나선다. - P104

앞서 소개한 윌콕슨 순위합 검정과 만-위트니 검정, 여기서 소개할 크루스칼-왈리스 검정의 장점을 한 단어로 표현하면 ‘단순함‘이다. 관측값의 순위만으로 집단 간의 차이점을 검정한다는 사실은 대단한 발견이 아닐 수 없다. - P104

하지만 ‘복잡함‘에 대한 이해 없이 ‘단순함‘을 찾을 수는 없다 - P104

세상의 모든 아름다움은 어려운 문제의 정답을 찾는 과정에서 나온다고 한다. 단순함 역시 복잡한 문제의 정답을 찾는 과정에서 나온다. - P105

크루스칼-윌리스 검정은 일원배치 분산분석의 비모수적 검정 기법으로, 서로 독립적인 환경에서 관측된 3개 이상의 집단을 검정하는 방법이다. 크루스칼-왈리스 검정의 기본 흐름은 윌콕슨 순위합 검정과 유사하다. - P106

크루스칼-왈리스 검정은 관측된 값들의 중앙값을 기본으로 한다는 점에서 윌콕슨 순위합 검정이나 만-위트니 검정과 유사하다. - P108

데이터 분석을 하는데 가장 중요한 것은 수학도 통계 기법도 알고리즘도 아닌 비즈니스에 대한 이해다. 유통, 제조, 마케팅, 서비스 등 산업 분야의 형태를 알아야 하고, 여기에 그 회사만이 가진 특성도 알아야 한다. 이런 비즈니스 특성을 충분히 이해해야 분석 내용이 설득력을 얻게 된다. - P109

중요한 것은 어떤 경우에 어떤 기법을 써야 하는지를 아는 것이다. 그 이전에 비즈니스 환경과 데이터 분석의 기본 원리를 이해하는 게 필요하다. - P110

데이터 분석에서는 특징 또는 속성에 따른 분류와 분리, 그룹화가 매우 중요한 기법으로 쓰이고 있다. - P114

분류는 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것을 말한다. 반면 군집은 체계 (속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한) 속성끼리 묶어 그룹을 구성하는 것이다. - P115

즉, 분류란 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것이다. 군집은 이와는 반대로 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업을 의미한다. - P115

분류는 이미 개수가 정해져 있지만, 군집은 최종 개수를 사전에 알 수 없다. 그래서 분류는 정해진 기준을 대상에 ‘적용‘해 나누는 것이고, 군집은 기준을 ‘탐사‘하고 대상을 나누는 것이다. - P115

군집화는 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 행위다. 여기서 개체는 분석대상이며, 속성은 분석 대상의 특성이다. 그러면 이제 유사한 속성이 무엇인가만 남았다. 유사성, 다른 말로 유사도similarity 라고도 하는데, - P118

데이터 분석은 수학을 기반으로 한 확률이고, 수학은 수를 다루는 학문이다. 군집화 분석을 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것이다. - P118

절대값은 무엇일까? 일반적으로 수가 가질 수 있는 속성 중에는 방향과 거리가 있다. 그래서 양수와 음수로 수를 표현하는 것은 방향을 나타낸다. +3은 정방향으로 3칸, -3은 역방향으로 3칸 떨어진 것이다. 즉, 0을 기준으로 정방향이든 역방향이든 모두 3칸 떨어졌단 의미다. 이 방향성을 뺀 값을 ‘거리‘라 하고, 그 값을 절대값이라고 부른다. - P119

거리는 군집과 어떤 관계가 있을까? 앞부분에서 유사도를 언급했는데, 바로 이 유사도를 측정할 때 거리가 가장 훌륭한 조력자가 된다. - P120

거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도측정에 가장 많이 활용하는 기법이다. 거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리다. - P120

유사도 측정 공식 중 거리를 이용한 가장 대표적인, 우리가 학창시절 수학시간에 들어 봤음직한, 유클리드 거리 Euclidean distance - P121

유클리드 거리 계산을 쉽게 표현하면 공간상에 찍힌 두 점 사이의 거리를 계산하는 공식이다. - P122

유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식이다. 이 공식은 피타고라스의 정리와 매우 유사하다. - P123

유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있다. 이 공식은 최댓값이 정해져 있지 않아 유사도, 즉 ‘가깝다‘, ‘가깝지 않다‘의 기준을 정하기 어렵다. 실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵다. 그래서 유클리드 거리로 계산된 값이 0에서 1 사이의 값이 되게 정규화를 해야 한다. - P124

•유클리드 거리 유사도=1/(1+ Ed) - P124

계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취한다. 그러면 이 값은 0에서 1사이의 값이 나온다. 유사도 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. - P124

거리를 활용한 유사도 이외의 또 다른 방법으로 맨해튼 거리 Manhattan distance  공식이 있다. 여기서 맨해튼은 모두 아는 뉴욕의 지명이다. 유클리드 거리는 거리를 계산할 때 장애물을 고려하지 않는다. 즉, 유클리드 거리는 최단 거리라 할 수 있다. 그러나 실생활에서는 최단 거리만을 이용할 수 없다. 맨해튼은 서울, 아니 그보다 도심이 더 복잡하다. - P127

맨해튼 거리 공식은 유클리드 거리 공식보다 매우 간단하다. 맨해튼 거리는 두 좌표 값의 차이에 절대값을 취해 구한다. - P127

거리를 기반으로 한 유사도 공식만 있는 것은 아니다. 다음으로 소개할 유사도 공식은 거리가 아닌 각도에 따라 유사도를 측정한다. 코사인 유사도 cosine similarity는 삼각함수에서 나오는 코사인cosine, cos을 이용한다. - P128

피타고라스의 정리에 등장하는 삼각형은 오로지 직삼각형 (직각 삼각형)만 다룬다. 그러나 세상에는 직삼각형 외에도 많은 삼각형이 있다. 코사인은 이 직각이 아닌 일반 삼각형에 적용하는 공식이다. 코사인은 피타고라스의 정리와 유클리드 거리 공식으로 충분히 증명할 수 있다. - P128

코사인은 익히 아는 삼각함수의 하나다. 더 정확히 표현하면 코사인은 2차원 평면에서 볼 때 한 지점에서 출발한 방향을 가진 두 값(벡터)의 길이에 대한 비율을 의미한다. - P129

유사도는 0과 1 사이의 값을 수렴하므로 코사인 유사도는 두 값의 방향이 0도일 때와 90도일 때를 기준으로 한다. 따라서 두 값의 방향성이 정확히 일치하는 0도일 때 값이 1이므로 가장 유사도가 높고 각도가 늘어날수록 보다 값이 작아지며 0이 유사도가 가장 낮다고 판단한다. - P129

피어슨 상관계수 역시 유사도를 측정하는 매우 훌륭한 도구다. 그리고 뒤에서 설명할 패턴 분석에 유용한 분석 방법의하나인 연관규칙의 신뢰도와 중첩 비중에 따른 지수 활용 Inclusive index, Jaccard Index 으로도 유사도를 구할 수 있다. - P129


댓글(0) 먼댓글(0) 좋아요(8)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 

지난번 포스팅에서 밑줄 친 마지막 부분에 뉴욕의 거리 체계 및 특징에 대한 얘기가 잠깐 나왔었다. 직사각형의 격자로 가로와 세로의 길이가 다르다는 것과 함께 가로로 된 길은 Street이고 세로로 된 길은 Avenue라고 지칭한다는 것 정도가 핵심내용이었다.

또한 위와는 별개로 뉴욕은 도시가 오래됨에 따라 필연적으로 발생하게 되는 문제점들을 지혜롭고 창의적인 방식으로 해결한다고 하는데 이러한 것이 가능한 이유를 p.115에 밑줄친 문장에서 찾아볼 수 있다. 여기서의 핵심은 건축물을 인간의 삶과 함께 살아 숨 쉬는 일종의 파트너로 생각한다는 것인데, 독자인 나만의 용어로 살짝 바꿔보자면 무생물인 건축물을 생물인 인간과 같이 살아 숨 쉬는 동반자적인 관계로 생각한다는 것으로 볼 수 있을 듯 하다.

저자는 뉴욕이 이러한 관점을 가지고 도시의 문제를 해결해나가기 때문에 날마다 도시가 새로워지고 있음을 지적하면서 우리나라도 이러한 관점을 좀 본받았으면 하는 바램을 드러낸다. 우리나라의 경우 건축물을 단순히 유산으로만 생각하는 경향이 있는데, 건축물을 단순히 무생물로 보는 관점에서 벗어나 살아있는 생물처럼 여기고 관리할 때 도시가 진일보할 수 있는 토대가 마련된다고 저자는 믿고 있는 듯 하다. 여기 일일이 밑줄치진 않았지만, 건축물을 죽어있는 무생물처럼 여기고 과거에 그대로 머물게 하기보다는 용도를 바꿔서 사용한 사례들이 두군데 정도 나오는데 이러한 것들을 보면서 독자인 나 또한 저자의 관점에 고개를 끄덕이지 않을 수 없었다.
.
.
.
또한 이어지는 내용에서 우리나라의 국보 1호인 남대문에 관한 얘기가 나온다. 언제인지 정확히 기억이 나진 않지만 과거에 남대문이 화재로 인해 불에 탄 적이 있다. 저자는 이 얘기와 함께 남대문이라는 것의 가치는 최초에 남대문을 만들 당시의 사람들의 생각과 개념이 중요한 것이지, 남대문이 무슨 재료로 이루어져있는지를 따지는 것은 부차적인 것이라는 얘기도 덧붙인다. 독자인 나의 관점에서는 건축가인 저자가 이렇게 말하는 게 과연 맞는 것인가 싶기도 했지만, 본질적인 의미나 관념들에 좀 더 가치를 두고 본다면 저자의 말에 일리가 있다는 생각도 해볼 수 있었다. 이 부분을 읽으면서는 문화재라는 것의 진정한 가치는 어디서 나오는 것인가에 대해 다시금 생각해볼 수 있었다.

건축가인 저자의 글을 통해 단순히 어떤 건축적인 개념같은 것들만을 배우는 것이 아닌, 세상을 바라보는 새롭고 다양한 시각들도 배우게 되는 것 같다는 느낌을 받는 순간이었다.


유연한 대처가 가능한 것은 건축이나 도시를 단순히 유산으로만 생각하는 것이 아니라, 인간의 삶과 함께 살아 숨 쉬는 일종의 파트너로 생각하기 때문에 가능한 일이다. - P115

개념이 문화재로서의 중요한 가치를 만들기 때문이다. - P116

건축은 오브제(object)의 성격이 강한 도자기나 그림과는 다르다. 건축은 사람이 들어가고 나오는 공간을 가지고 있기 때문에 계속해서 재료가 교체되고 복원되고 사용되면서 보존되는 것이 옳다. - P116

남대문은 재료가 오래된 나무이기 때문에 문화재가 아니라 그 건축물을 만든 생각이 문화재인 것이고, 그 생각을 기념하기 위해서 결과물인 남대문을 문화재로 지정한 것이다. 따라서 오리지널 남대문이 불타 버린 것은 안타까운 일이지만, 오래된 나무가 불에 탔다고 통곡하면서 울 필요까지는 없을 것 같다. - P116

우리가 고건축을 하드웨어로만 보면 그냥 보존에 치중하게 되는 반면, 소프트웨어로 보면 좀 더 유연하게 이용할 수 있다. 유럽의 문화선진국은 일찍이 건축 문화재를 소프트웨어로 보고 변화된 시대에 맞게 잘 사용하면서 보존하고 있다. 그 대표적인 사례가 오르세 미술관이다. - P118

건축물은 시대를 거치면서 다르게 사용될 수 있다. 그것이 어쩌면 건축물을 더 살아 있게 만드는 것이다. - P118

더 이상 건축 문화재를 박제시켜 놓고 우상화시키지 않았으면 한다. - P118

혹자는 도시를 신의 창조물이라고 말하기도 하고, 어떤 사람들은 인간이 만들어 낸 인공물이라고도 한다. 한 가지 명확한 사실은 빌딩, 다리, 상하수도 시설, 도로 같은 도시를 구성하는 대부분의 물리적인 구조들은 사람에 의해서 만들어졌다는 점이다. 그런 면에서 도시는 인간이 만들어 낸 인공물이라고 할 수 있다. 하지만 동시에 도시는 실제로 도시설계자의 의도대로가 아니라 자연발생적인 방식에 의해서 오랜 시간에 걸쳐 진화해 왔다는 면에서 인간에 의해서 만들어졌다기보다는 자생적인 유기체라고 할 수도 있다. - P124


댓글(0) 먼댓글(0) 좋아요(6)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
최재천의 곤충사회
최재천 지음 / 열림원 / 2024년 2월
평점 :
장바구니담기


저자의 유튜브인 ‘최재천의 아마존‘ 이라는 걸 알고리즘에 이끌려 본 적이 있었는데 때마침 기회가 되어 저자가 쓴 이 책을 읽을 수 있었다. 과거 영상으로 접했을 때 뭔가 유익한 채널인 것 같다는 느낌을 받아서 저자에 대한 이미지가 좋았던 것 같다.

저자인 최재천 교수는 99년에 처음으로 책을 써서 지금까지 약 100여 권에 달하는 책을 써오셨다고 한다. 그런데 조금은 부끄럽게도 독자인 나는 저자의 책을 이번에 처음 읽어보게 되었다. 그럼에도 불구하고 이 책을 통해 저자와 저자의 생각에 대해 꽤나 많은 것들을 알고 배울 수 있는 시간이었다.

가장 먼저 저자가 자신이 걸어왔던 그동안의 삶에 대해 얘기해주는 부분이 있다. 대학 입시 때 잠시 좌절했던 일들, 대학 생활 그리고 우연한 기회에 외국의 교수님을 만나서 유학 생활을 했던 이야기와 지금 현재 재직중인 국립 생태원장으로서의 삶까지 아주 버라이어티한 얘기들을 만날 수 있었다. 책 제목에 왜 저자의 이름이 함께 수록되었는지를 아주 잘 느낄 수 있었다. 곤충사회에 대한 얘기에 앞서 인간 최재천 이라는 사람 그 자체에 대해서도 지면을 통해 간접적으로나마 만날 수 있는 시간이었다.

다음으로는 생태학자인 저자가 주로 연구했던 개미와 관련된 얘기들이 등장한다. 본문에 보면 ‘무슨무슨 개미‘라고 해서 어떤 개미가 하는 행동에 근거해서 이름을 붙여주는데 일일이 다 나열하기 힘들 정도로 개미들의 세계에서도 아주 다양한 캐릭터들이 존재하고 있음을 느낄 수 있는 시간이었다. 또한 개미와 함께 벌과 관련된 내용들도 등장하는데, 물론 곤충 이야기 자체도 의미가 있겠지만 독자인 내가 생각했을 때 전체적인 이 책의 핵심은 저자가 소개한 곤충들의 모습 속에서 우리 인간이 배워야할 점은 어떤 것들이 있는지를 생각해보는 것이었다.

저자에 대해 예전부터 알고 계셨던 분들이라면 익히 들어봤을 단어인 ‘통섭‘이라는 단어. 그리고 이 책에 소개된 개미들의 사회를 저자가 관찰하며 느꼈던 핵심 가치인 ‘공생‘. 이 두 가지 키워드가 저자가 독자들에게 전하고자하는 가장 중요한 핵심 가치라는 생각이 들었다.

먼저 ‘통섭‘과 관련해서는 자연과학과 인문학이라는 두 학문 분야에 대해 어느 한쪽에만 치우치기보다는 두 분야를 골고루 균형있게 알고 있는 것이 사람이든 곤충이든 각각의 다양성을 존중할 수 있는 그런 밑바탕이 될 수 있다고 저자는 말한다. 또한 이러한 ‘통섭‘에 기반하여 우리가 서로 협력하며 ‘공생‘하는 것이 곤충들이 사는 자연계든 우리 인간들이 사는 사회든 더 나은 환경을 만들게 된다는 게 저자의 얘기다. 특별히 ‘공생‘과 관련하여 개미들이 서로 협동할 때 그 사회가 지속적으로 성장하는 모습을 볼 수 있었는데, 이러한 점을 우리 인간들이 배웠으면 하는 저자의 바램이 느껴졌다. 다만, 개미들은 자신이 희생하는 것에 대해 거리낌이 없는 반면 우리 인간의 경우 자기자신을 희생해서 사회에 유익이 되는 일을 하는 것이 인간의 이기심 등으로 인해 현실적으로 어렵다는 사실에 저자는 안타까워 하기도 한다.

독자인 나는 이러한 것들을 보면서 개미로 대변되는 곤충들과 우리 인간들 간의 공통점과 차이점을 잘 구별해서 공통되는 속성이 있다면 자연의 것을 그대로 벤치마킹해서 인간 사회에 적용해보면 좋을 것 같고, 서로간에 차이가 나는 속성이 있다면 우리 인간 사회의 속성에 맞게 잘 변형해서 적용하면 참 좋겠다는 생각이 들었다. 저자께서도 자연에서 발견할 수 있는 다양한 교훈 같은 것들을 우리 인간들이 잘 베껴왔으면 하는 바램을 본문에 나타내고 있다. 표절이라는 건 원래 나쁜 거지만 자연을 표절하는 건 나쁜 것이 아니라며 자연과 인간이 이런 식으로 공생하는 것이 바람직한 것이라고 저자는 말한다.

책의 중후반부로 가면 저자가 최근 관심을 쏟고 있는 기후변화와 생물다양성에 대한 얘기들이 등장하는데, 저자는 생태계와 먹이사슬이라는 것을 언급하면서 어느 특정 생물이 갑자기 사라진다면 자연계를 지탱하는 먹이사슬의 체계가 완전히 뒤틀려버림과 동시에 기존에 남아있던 생물들까지도 멸종할 수 있음을 경고한다. 이러한 위험으로부터 자유로워지기 위해서는 자연계에 생물다양성이 잘 유지되는 것이 그 무엇보다도 중요한 것임을 저자는 역설한다.

다만, 최근의 급속한 기후변화로 인해 현재 존재하는 생물들이 과거와는 달라진 환경에 신속히 대응하지 못하는 현상인 ‘생태 엇박자‘가 최근 급속히 증가하고 있음을 언급하며, 전지구적으로 우리 인간이 이상기후변화에 대한 경각심을 가지고 대응해야 한다고 저자는 말한다. 또한 기후변화에 대비하는 것과 함께 생물다양성을 유지할 수 있는 방안도 신속히 마련하여 생태계가 파괴되지 않고 잘 유지될 수 있도록 힘써야 한다는 것도 추가로 강조한다.

곤충에서 시작해 자연 생태계에 이르는 얘기들이 쭉 이어지고, 이러한 것들에 발맞춰 우리 인간이 어떻게 대응해야 할지를 생각해보면서 자연스럽게 독자인 나도 생태계에 대해, 자연에 대해 생각해보게 만드는 책이었다. 자연계에 있는 곤충들의 생태계를 유지하기 위한 생물다양성이 필요한 것처럼 우리 인간 사회에도 어떤 특정부류의 사람들만 있는 것보다는 다양한 특성을 가진 사람들이 서로 공존하고 공생하는 삶을 살때 우리 사회가 좀 더 지속가능한 사회로 오래오래 영속할 수 있지 않을까 생각해본다.

마지막으로 이 책을 읽으면서 환경에 대해 그동안 무지했던 나 자신을 돌아보게 되었고, 사소한 것이라도 환경을 나쁘게 만드는 방향보다는 환경을 좋게 혹은 최소한 덜 나빠지게 만드는 쪽으로 매순간 의사결정할 수 있도록 해야겠다는 생각이 들게 되는 책이었다. 곤충사회를 통해 중요한 교훈을 배운 것 같다.

댓글(2) 먼댓글(0) 좋아요(15)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
미미 2024-05-28 10:20   좋아요 1 | 댓글달기 | URL
즐라탄님, 저도 너무 재밌게 읽었는데 우리가 모르는 생태계의 세계가 참 방대하구나 느꼈어요. 거기에 기후위기에 대한 답도 있을 것 같고 배워야 할 점이 많아 보이더라고요^^*

즐라탄이즐라탄탄 2024-05-28 10:36   좋아요 1 | URL
예 저도 읽으면서 그동안 알지 못했던 자연의 세계를 조금이나마 알게 되면서 우리 인간이 나아가야 할 방향에 대해 잠시나마 생각해보게 되는 시간이었던 것 같아요. 자연에서 인간사회에 적용할만한 좋은 것들을 잘 베끼는(?) 지혜가 필요하다는 생각도 들고요. 기후변화와 생물다양성 문제 같은 것은 이 책이 아니었으면 솔직히 피부로 와닿게 느끼지 못했을 것 같은데 저자인 최재천 교수님의 글로 미약하지만 그래도 어느정도는 느끼게 된 것 같아서 감사한 마음이 듭니다. 미미님이 써주신 서평을 비롯해 이 책에 후기를 남겨주신 분들의 다양한 서평들도 읽어보면서 책 내용도 다시금 상기하고 제가 미처보지 못했거나 흘렸던 부분들도 확인해볼 수 있는 시간이었던 것 같습니다. 댓글 감사드립니다. 좋은 하루되시길 바랍니다. 고맙습니다! ^^*
 

오늘 초반에 밑줄친 내용은 본문의 내용과는 별개로 Q & A 형식으로 나오는 것인데 핵심 질문은 ‘데이터 과학자가 어떤 일을 하는 사람이냐‘는 것이고 그에 따른 저자의 답변으로 이해하면 될 듯 하다.

데이터 분석에 필요한 기본적인 역량인 수리 통계적 역량은 물론이고 데이터를 보고 유추될만한 결론을 상상해낼 수 있는 능력, 그리고 이러한 역량과 능력을 바탕으로 세상을 바라보는 독창적인 시각을 갖추는 것이 ‘데이터 과학자‘라는 직업에 적합하다고 저자는 말한다. 빅데이터에 기반한 AI가 대세가 되어가는 이 시대에 부가가치를 굉장히 많이 창출할 수 있는 업종이 데이터 분석과 관련된 분야가 될 수도 있지 않을까 조심스레 예상해본다.
.
.
.
절을 바꿔서 이어지는 내용에서는 ‘분산분석‘이라는 용어가 새롭게 등장한다. 이는 간단히 말해 분산을 비교해 가설을 검정하는 분석을 지칭한다. 앞선 포스팅에서 나왔던 t-검정도 가설을 검증하는 기법이었는데 t-검정이 2개의 대상을 기준으로 가설을 검증하는 것이었다면, 분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라고 말할 수 있다.

이 부분은 읽을 때는 대략적인 이해는 되는데, 실제로 여기서 배운 것을 실제 데이터에 적용해서 어떤 유의미한 결과물을 산출하는 수준까지는 아직은 좀 힘겨울 것 같다는 생각이 들었다. 기본적인 개념에 대한 공부와 더불어 실제 데이터에 적용해보는 연습이 많이 필요한 부분이 아닐까 생각한다. 하지만 이 책의 목적자체가 적용하는 수준까지 다루는 것이 아니고 데이터 분석에 대한 기본적인 개념이해에 초점을 맞춘 것이기에 만약 적용하는 수준으로까지 끌어올리고자 한다면 추가로 다른 책이나 매체들을 통해 학습하면 될 일인듯 하다.

어쨌든 간에 저자께서 비교적 복잡한 개념을 이해를 돕는 예시와 함께 설명해주셔서 어떤 예시 없이 단순히 개념만 나와있는 책들을 볼 때와는 다르다는 느낌을 받았다. 수학적인 수식같은 것을 사용하기보다는 뭔가 직관적으로 이해시켜주시려고 해주시는 것 같아서 좋게 느껴졌다.
.
.
.
다시 한 번 절을 바꿔서 이번에는 ‘모수와 비모수‘라는 개념이 나온다. 모수는 정규분포를 따르는 반면 비모수는 정규분포를 따르지 않는다. 이외에도 이 둘을 비교하는 몇 가지 특징들이 있는데, p.86, 87에 밑줄 친 부분을 참조바란다.

이와 관련하여 여기 일일이 밑줄치진 않았지만 회사의 매출액과 영업이익 간의 관계를 분석해보는 사례가 책에 등장하는데, 여기서는 매출액을 금액(연속확률분포)과 순위(이산확률분포)로 쪼개서 분석한다. 괄호 안에 써놓은 확률분포의 특성에 따라 분석하는 방식이 조금은 다른데, 어떤 특정 방식의 우열을 가리는 것은 의미가 없고, 단지 변량(여기서는 금액과 순위)의 확률분포 특성에 따라 검정기법을 잘 적용하여 데이터를 분석하는 것이 중요하다고 할 수 있겠다.

위 사례에서 어떤 기법을 적용해야 하느냐를 잠시 생각해본다면 먼저 매출액을 연속확률분포인 금액을 기준으로 분석할 경우 모수적 검정 기법을 적용하면 될 것이고, 이산확률분포인 순위를 기준으로 분석할 경우 비모수적 검정 기법을 적용하면 될 것이다.

다음 포스팅에서 이와 관련하여 좀 더 추가적으로 다루도록 하겠다.

뛰어난 통계 분석 능력을 기반으로 적절한 알고리즘을 이용해 대용량 데이터를 분석할 능력이 있고, 새로운 가치를 창출하며 이를 유연하게 해석할 수 있는 사람 - P68

데이터 과학자의 주된 업무가 데이터 분석에서 출발한다면 수리 통계는 데이터 과학자에게 절대적으로 중요한 소양이다. 또한 데이터 과학자는 비판적 사고를 가져야한다. 이 말은 호기심을 포괄하는 의미인데, 매우 중요한 덕목이다. - P68

결론을 정하고 데이터를 대입하는 것이 아니라 데이터를 보고 유추될 결론을 상상하는 능력 - P68

어떤 데이터라도 그것에 활용할 만한 가치를 연결하는 능력은 데이터 분석을 주된 직업으로 하는 사람들에게 큰 도움이 된다. - P68

이러한 훈련과 습관은 창의력과도 연결된다. 데이터로 보는 세상은 쳇바퀴처럼 돌고 도는 현실과 많이 다르다. 어떤 관점으로 현상을 보느냐에 따라 데이터는 완전히 새로운 방향을 제시할 수 있다. 매번 반복적인 업무와 생활 습관을 가진 사람은 그것이 당연하다고 생각하지만, 데이터로 보면 이런 생각과 흐름이 잘못됐다는 것을 알 수 있다. - P69

데이터를 다루는 주변 사람들을 보면 대체로 개혁적인 성향을 가진 사람이 많다. 모두는 아니지만 조직의 혁신과 관련된 업무에 투입되는 경우가 많은 이유일 것이다. - P69

의식적으로 다르게 보는 시각을 가져보자. 남들과 시각이 똑같다면 데이터 과학자라는 가장 섹시한 직업을 갖기에는 부족하지 않을까? 많은 분야의 서적을 읽고 생각의 폭과 시야를 충분히 넓히는 훈련을 게을리하지 말자. - P69

기준 값에서 비교하려는 대상값(확률값)이 얼마나 떨어져 있는지를 나타내는 척도가 분산이다. 다시 말해 분산은 임의의 근로자 연봉을 선택하고 해당 근로자들의 연봉이 평균에서 얼마나 떨어져 있는가를 가늠하는 숫자다. - P73

분산은 편차(확률값 - 기댓값)를 제곱한 값의 총 합을 표본의 개수로 나눈 것이다. 분산이 0에 가깝다는 것은 표본(데이터)이 기댓값에 가깝게 분포함을 의미한다. - P73

선택한 데이터가 무엇이 될지 알 수 없을 때 우리는 그 값을 ‘X‘라고 표현하고 통상 ‘변수‘라고 지칭한다. 이것이 바로 데이터 분석에서의 확률변수random variable다. 그리고 이러한 확률변수들의 평균을 기댓값이라 한다. 앞에 나온 분산은 확률변수가 기댓값으로부터 얼마나 떨어져서 나타나는지를 확인하는 척도다. 그리고 이러한 분산을 비교해 가설을 검정하는 분석을 분산분석이라 한다. - P73

확률변수는 무작위로 선택된 값을 열거해 헤아릴 수 있음을 의미하는 이산확률변수와 임의의 값을 갖는 연속확률변수로 나눌 수 있다. 전자는 ‘이산가족‘의 이산을 생각하면 쉽다. 이산확률변수는 변수 x1과 x2가 각각 1과 2의 값을 가질 때 변수 x1과 x2를 전혀 별개의 사건으로 본다. 이와 반대로 연속확률변수는 변수 x1과 x2 사이의 모든 실수가 변화하며 연속적으로 발생하는 같은 사건의 연장으로 본다. - P73

확률변수가 가질 수 있는 값(확률값)과 그 값이 나올 확률과의 관계(대응)를 확률분포라 한다. 확률분포로는 크게 이산확률분포와 연속확률분포가 있다. - P74

확률분포의 종류 : 이산확률분포, 연속확률분포

이산확률분포 : 베르누이분포, 이항분포, 포아송분포

연속확률분포 : 균등분포, 정규분포, 지수분포 - P74

상관계수는 두 개의 확률변수 x와 y가 양의 상관인지 음의 상관인지를 0을 기준으로 -1과 1 사이의 값으로 나타낸다. 이와 비슷한 개념으로는 공분산covariance이 있다. 공분산은 두 확률변수의 상관관계를 파악해 하나의 일직선 (선형)상에 표현할 때 0보다 큰 경우(정의 관계)와 0인 경우 (관계없음), 0보다 작은 경우(부의 관계)를 나타내는 척도를 의미한다. - P75

공분산 상관계수는 어떤 차이가 있을까? 공분산은 선형관계가 있는지 없는지만을 나타낼 뿐 값을 명확하게 제시하지는 못한다. 즉, 얼마만큼의 정의 관계인지 또는 부의 관계인지, 그 값이 얼마가 돼야 하는지에 대한 설명이 없다. 반면, 상관계수는 명확한 값을 제시한다. x가 n만큼 크면 y도 n+1만큼 늘어나거나 줄어든다고 설명할 수 있다. - P75

분산분석 analysis of variance, ANOVA은 가설을 검증하는 방법이다. 앞서 t-검정을 통해 가설 검증을 했지만, 분산분석으로도 가설 검증을 할 수 있다. 물론 두 방식에는 약간의 차이가 있다. - P75

t-검정은 두 집단의 검정만 가능하며, 2개 이상의 집단을 비교 검정할 때는 분산분석을 수행해야 한다. - P76

분산분석은 비교 검정하고자 하는 집단들의 평균이 다를 때 집단들의 분산을 비교해 생성된 F-분포로 가설을 검정하는 방법이다. 분산분석의 개념을 정립하고 만든 사람은 앞서 소개한 로널드 피셔다. F-분포의 F도 피셔의 이름에서 ‘F‘를 따서 명명됐다. - P77

가설검정의 종류 : 정규분포, t-분포, F-분포

정규분포 : Z-분포

t-분포 : t-검정

F-분포 : 분산분석 - P77

피셔는 그의 저서《실험 계획법》에서 농작물 비교 실험을 논하며 분산분석의 개념을 전개했다. 여기에는 세 가지 핵심적인 원리가 있다. 무작위 randomization와 반복 reitetition, 통제 blocking란 개념이다. - P77

분석 대상의 선택은 실험자가 얼마나 주관적인 생각을 배제하고 객관적으로 대상을 선정하는가의 문제다. 이것이 바로 분산분석의 첫 번째 핵심 원리인 무작위다. - P78

데이터 분석에서는 작은 요인까지 고려해야 한다. 따라서 실험 (분석)은 반복적으로 수행해야 한다. 매번 같은 조건을 만들기는 어렵다. 이를 상쇄하려면 실험을 반복해 다양한 결과를 수집, 분석하고 반복 수행한 결과에서 나온 서로 다른 오차도 수치화해 분석에 반영해야 한다. 이것이 두 번째 핵심 원리인 반복이다. - P79

대상을 분석하고 나온 결과에 대한 평가는 같은 수준과 환경에서 진행해야 한다. 따라서 평가는 제한된 상황에서 이루어질 수밖에 없다. 이러한 통제의 원리는 앞선 무작위 원리와도 상통한다. 분석 대상의 조건 역시 완벽하게 통제할 수 없기에 무작위 원리가 적용되며, 무작위 선별이 불가능한 대상은 효과적인 통제가 필요하다. - P79

(무작위, 반복, 통제-이하 제어 환경) - P79

제어 환경은 완벽하게 관리하기 어렵다. 앞서 살펴본 것처럼 제어 환경마다 다른 특성을 보이고 오차가 발생한다. 그래서 피셔는 세 가지 제어 환경에서 여러 속성이 각각 어떤 차이(오차)와 특성을 보이는지에 주목했다. 분석 대상의 선정에서 오는 차이와 특성, 실험 방법에 따른 결과의 차이와 특성, 같지 않은 환경에서 오는 평가의 차이와 특성 등이다. - P80

분산분석은 이러한 제어 환경에서 발생한 특성값의 변화(변동)를 분산으로 나타내고, 이 분산을 실험에 반영한 여러 제어 환경의 요인별로 분해해, 제어 환경에서 발생한 오차 값보다 더 큰 영향을 주는 요인이 무엇인지를 찾아내는 것이다. - P80

결국 분산분석은 특성값의 분산과 변동을 분석하고 어떤 특성이 여러 조건하에서 어떻게 차이가 나는지를 판단하는 기법이다. - P80

분산분석은 3개 이상의 대상을 기준으로 가설을 검증하는 기법이라는 점만 기억하자. 가설검정은 2개일 때 t-검정, 3개 이상일 때 분산분석을 쓴다. - P80

분산분석은 변수의 개수에 따라 일원배치 분산분석one-way ANOVA 과 이원배치 분산분석 two-way ANOVA 으로 나눈다. - P80

일원배치 분산분석은 결과(종속변수)와 연결되는 하나의 독립변수에 영향을 받는 3개 이상의 조건을 분산으로 분석해 결과(종속변수)를 도출하는 방법을 말한다. - P80

방울토마토 맛 평가 방식이 대표적인 일원배치 분산분석이다. 맛(종속변수)에 영향을 주는 변수를 비료 (독립변수) 하나로 선정하고 각기 다른 세 가지 비료(조건)로 분리한 것이다. - P80

이원배치 분산분석은 의미 그대로 두 개의 독립변수로 검정하는 것(결과인 종속변수를 도출하는 것)을 말한다. 독립변수 각각의 범주 (조건 또는 수준)에서 일어난 변화가 종속변수에 어떤 영향을 주는지를 파악하는 것이다. - P81

일원배치 분산분석은 2개의 독립변수에 따라 각각 수행된다고 생각할 수 있다. 다만, 이원배치 분산분석은 각 독립변수의 영향력을 검정하는 것은 물론 두 독립변수의 결합으로 발생하는 영향력까지 고려해 검정한다. 이 부분이 일원배치 분산분석과 이원배치 분산분석의 가장 큰 차이점이다. 단순히 독립변수의 개수가 1개인지 2개인지만으로 구분한 것이 아니다. - P81

따라서 일원배치 분산분석은 독립변수의 주된 영향력을 검정하는 것이고 이원배치 분산분석은 상호작용의 영향력까지 검정하는 것이다. 예를 들면, 한 독립변수의 변화가 종속변수에 미치는 영향이 또 다른 독립변수의 변화에 따라 달라질 수 있는가까지 보는 것이다. - P81

방울토마토 맛(종속변수) 평가를 예로 들면, 첫 번째 독립변수는 비료를, 두 번째 독립변수는 품종을 선정한다. 그리고 세 가지 비료와 3개의 방울토마토 품종(조건)을 대상으로 맛을 평가하고 비료를 3개의 품종에 골고루 투입해 나온 맛도 평가를 진행하는 것이다(반드시 독립변수마다 3개의 조건이 존재해야 하는 것은 아니다). - P81

분산분석을 수행할 때는 다음 가정이 충족돼야 한다. 첫째, 독립변수의 조건이 서로 독립적이어야 한다(독립성). 똑같은 비료는 안 된다. 환경이 다르다고 같은 비료로 재배하면 안 된다. 영향을 주는 요인은 서로 독립적이어야 한다. 같은 비료로 다른 토양이 선택됐다면 여기서 독립변수는 토양이 된다. - P82

둘째, 독립변수에 영향을 받는 결과값인 연속된 종속변수의 값들은 정규분포를 만족해야 한다(정규성). 작년에 평가한 방울토마토와 올해 새로 재배한 방울토마토의 맛은 서로 다른 평가 대상이다. 작년과 올해의 방울토마토는 전혀 관련이 없는 이산확률분포를 보인다. - P82

마지막으로 독립변수의 각 조건에 따른 결과인 종속변수의 분산은 조건마다 같아야 한다(등분산성). 맛을 평가할 때는 3개면 3개, 5개면 5개처럼 같은 개수의 방울토마토를 기준으로 해야 한다. 맛을 잘 모르겠다고 첫 번째 비료에서 재배된 방울토마토만 10개 먹으면 안 된다. - P82

분산분석과 회귀분석은 유사하다 - P83

종속변수는 값을 임의로 변경할 수 없다. 그래서 종속변수의 변화를 보는 것이 분석의 최종 목표가 되기도 한다. - P84

세상은 언제나 예외가 존재한다 - 비모수 검정기법 - P85

"통계는 확률입니다." - P86

확률을 표현한 대표적인 연속확률분포이며, 세상의 모든 현상을 설명하는 정규분포를 대표하는 값은 평균과 분산이다. 이 평균과 분산을 통계에서는 모수parameter라 부른다. - P86

만약 관찰 결과가 정규분포를 따르지 않는다면 수집된 데이터가 부족하기 때문이다. 추가로 수집된 데이터의 환경이 서로 다를 수 있다. 이를 바탕으로 모수가 되기 위한 충분 조건은 다음과 같이 설명할 수 있다. 첫째, 데이터가 정규분포를 따른다. 둘째, 데이터가 정규분포로 표현될 만큼 표본 수가 많다. 셋째, 데이터가 같은 환경에 있다. - P86

세상의 모든 현상이 음과 양의 조화를 이루듯이 모수란 개념의 반대 개념 역시 존재한다. 이를 비모수 non-parameter라고 한다. 비모수는 데이터가 정규분포가 아니며 데이터의 표본 수가 적거나 부족하고 데이터가 서로 독립적인 경우다. - P87

모수는 연속된 값, 비모수는 연속되지 않은 값이라고 이해해도 된다. - P87

단순 금액 비교일 때는 피어슨 상관분석을 수행하면 되지만, 정규분포를 따르지 않는 비모수일 때는 피어슨 상관분석을 수행하기 곤란하다. 이 경우 비모수적 검정 기법인 스피어만 상관분석으로 매출액에 따른 순위와 영업이익에 따른 순위를 비교해야 한다. - P88

지금까지 모수적 검정 기법과 비모수적 검정 기법이 모집단과 표본에 대한 정규분포의 가정에 따라 구별된다는 점을 확인했다. 단순히 이것뿐일까? 사실 두 검정 기법은 분석 방법에도 차이가 있다. 좀 더 정확히 말하면 기준 관점에서 명확한 차이를 보인다. - P89

모수적 검정 기법은 모집단으로부터 추출한 표본 간 평균 차이를 중심으로 분석한다. (단순한 평균 비교부터 분산을 통한 분석까지 다양하다). 하지만 비모수적 검정 기법은 평균이 아닌 서열(순위, rank) 또는 특정 기준값(평균 또는 중앙값. 대체로 중앙값을 사용한다)을 중심으로 한 부호sign에 무게를 두고 분석한다. 따라서 비모수적 검정 기법에서는 데이터의 값이 극단적이더라도 영향을 덜 받는다. 수집된 데이터 값 중 특정 데이터의 값이 아무리 커도 순위에 차이가 있을 뿐 평균의 차이와는 관련이 없기 때문이다. - P89

매출액과 같은 연속확률분포는 평균 차이가 매우 중요하지만, 이산확률분포에서는 평균 차이와 관계없이 순위 차이를 기준으로 분석한다는 얘기다. 그래서 극단적인 값이 존재해도 순위 차이만 있을 뿐 영향을 덜 받는다. - P90


댓글(0) 먼댓글(0) 좋아요(7)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 

이 책에 자주 등장하는 용어 중에 milking action이라고 해서 우리 말로 ‘젖 짜기 효과‘라는 것이 있는데, 오늘 밑줄 친 부분에서도 이 용어가 등장한다. 이것은 운동을 할 때 근육의 수축과 팽창이 일어나는 것과 동시에 근육 속을 지나가는 모세혈관이 수축과 확장을 반복하여 혈관의 탄력성이 증진되는 것을 지칭하는 말이다. 이 용어는 오늘 읽은 부분에서 뿐만이 아니고 앞서 읽었던 부분들에서도 굉장히 자주 등장하는 것이기에 저자가 책 제목으로 지은 ‘왜 걸어야 하는가?‘에 대한 여러 이유들 중에서 굉장히 중요한 과학적 근거 중의 하나라고 여겨진다.

실제로 걷기 혹은 달리기를 많이 해보신 분들이라면 이러한 것들을 실제로 몸으로 느끼고 계신 분들도 있을듯 하다. 그렇기에 걷기나 달리기 같은 것들을 누가 시키지 않아도 스스로가 자발적으로 즐겁게 하시는 게 아닐까 싶다.


운동을 하면 근육 속을 지나가는 모세혈관이 근육의 수축, 팽창과 함께 활발하게 수축, 확장(‘milking action‘. 젖 짜기 효과)하여 온몸의 혈액순환이 촉진될 뿐만 아니라 근육과 혈관이 반복적으로 수축 팽창함으로써 탄력이 향상됨은 물론, 피가 깨끗해지고 면역력이 향상되는 효과도 거둘 수 있다. - P157

운동을 하여 내 몸을 구성하는 기본 단위인 세포들이 각자 스스로 열을 내게 함으로써 내 몸속 수십조(兆)개의 세포 하나하나를 건강하게 만들어주면, 내 몸 전체가 건강해진다. - P157

추운 곳에 오랜 시간 노출되거나 추위에 떨면서 웅크리고 있을 경우 근육이 수축되어 근육통이 생기고 혈관도 수축되어 혈액공급이 감소하여 백혈구의 활동이 방해를 받음으로써 면역력이 떨어질 수 있다. - P157

사우나 (sauna) 혹은 찜질방(뜨거운 곳)에서 10~20분씩 근육과 혈관을 이완시켜 주면 면역력을 높이고 숙면을 취할 수 있게 된다. 이는 사우나의 순기능이다. 전신욕, 반신욕, 좌욕도 체온을 올리는 데에 효과적인 방법이다. - P157

찜질방 혹은 사우나에서 너무 장시간 있게 되면 근육이 너무 이완되어 오히려 요통을 유발하거나 관절 등에 해롭고,  혈관도 수축 팽창 작용(이른바 ‘젖 짜기 동작‘)을 반복하는 것이 아니라 오로지 팽창된 상태(확장 일변도)로만 있을 뿐이어서 탄력을 잃게 되며, 마찬가지로 피부도 축 늘어져 탄력을 잃게 되고(혈관과 피부 노화 촉진), 체력이 점점 약해짐으로써 오히려 건강을 해칠 수 있다. 이는 찜질방 혹은 사우나의 역기능이다. - P158

우리의 몸은 골격근의 힘으로 움직이며, 골격근육에 에너지를 저장하기도 하고 저장한 에너지를 가져다 쓰기도 하는데 근육수축운동은 하지 않고 계속해서 이완만 시키면 요통이나 관절질환과 노화현상이 올 수밖에 없다. - P157

뜨거운 곳에서 10~20분 정도 근육과 혈관을 이완시켜 주는 것은 긴장 해소(relaxing)와 체온 상승에 도움이 될 수 있지만, 너무 장시간 뜨거운 곳에 있는 것은 오히려 건강에 해롭다. - P158

사우나에서 땀을 흘릴 때는 지독한 땀 냄새가 나지 않는다. 그 이유는 사우나를 하는 동안 정작 몸에 해로운 노폐물은 전혀 배출되지 않고, 몸에 이로운 칼륨, 칼슘, 마그네슘, 인 등의 무기물질만이 수분과 함께 배출되기 때문이다. 반면, 운동을 하는 동안 땀을 흘릴 때는 지독한 땀 냄새가 난다. 그 이유는 우리 몸속의 중금속, 노폐물, 발암물질도 함께 배출되기 때문이다. - P158

스스로 몸을 움직여서 땀을 흘릴 때는 ‘몸에 해로운 노폐물‘이 주로 배출되는 반면, 스스로 몸을 움직이지 않고(사우나를 하여) 땀을 흘릴 때는 ‘몸에 해로운 노폐물은 배출되지 않고 ‘몸에 이로운 무기물질(정작 몸에 필요한 물질)‘이 배출되는 것이다. - P158

몸을 움직여서 땀을 흘릴 때는 혈관이 수축과 팽창을 반복(milking action)함으로써 혈관 내벽에 붙어 있던 노폐물이 떨어져 나감과 동시에 체온 상승에 따른 발한 작용이 이루어지는 반면, 사우나에서 땀을 흘릴 때는 혈관이 수축과 팽창을 반복하지 않고 오로지 이완(팽창)된 상태만 유지할 (milking action‘ 없이) 뿐이어서 혈관 내벽에 붙어 있던 노폐물은 떨어져나가지 않고 체온 상승에 따른 발한 작용만 이루어지기 때문이다. - P159

진정으로 건강을 생각한다면, 스스로 몸을 움직이지 않고(사우나를 하여) 억지로 땀을 빼내는 것보다는 스스로 몸을 움직여서 자연스럽게 땀을 흘리는 것이 더 좋다. 내 몸을 수고롭게 하는 것, 내가 흘리는 땀의 가치를 소중히 여기는 것. 내 몸에서 나는 땀 냄새를 사랑하고 부지런히 움직이는 것. 이것이 바로 건강을 지키는 진정한 길이다. - P159

땀 흘리는 사람이 아름답다. 건강한 미인(美人)이 되려면 ‘스스로‘ 땀을 흘려야 한다. 땀을 흘리기 위한 목적으로 사우나, 찜질방, 반신욕, 족욕 등을 이용하더라도 스스로 몸을 움직여서 땀을 흘리는 능력도 함께 유지하고 향상시킬 필요가 있다. - P159

건강도 부지런하고 성실해야 지킬 수 있다. 지속가능한 건강(sustainable health)! 성실하고 꾸준한 노력으로 수시로 걷기를 실천함으로써 유지하고 향상시킬 수 있다. 노력한 만큼의 대가를 바라는 것, 건강에도 적용된다. - P159

타력(他力)보다는 자력(自力)으로 자연치유력(自然治癒力) 회복!! - P159

걷기 운동을 하면 체온이 상승하고 혈관이 수축과 팽창(milking action)을 반복함으로써 혈액순환(혈류)이 활발해지며 하체의 기운이 왕성해져서 몸 전체의 면역력이 강화되므로, 꾸준하고 규칙적인 걷기 운동은 면역력을 키우는 가장 근본적이고 효과적인 대책이다. - P160

특별히 체온이 낮은 사람들은 수시로 걷기 운동을 하여 체온을 올려주는 것이 좋다. 그리고 움직이지 않는 동안에는 체온이 높은 사람들에 비해 옷을 1~2겹 더 입어서 체온을 올려주는 한편, 따뜻한 물(溫水)을 조금씩 자주 마셔준다면 면역력이 더욱더 향상될 것이다. - P160

유방암 발병의 첫 번째 원인으로 꼽히는 것이 에스트로겐 같은 여성호르몬의 과다분비인데, 걷기 운동은 그런 호르몬의 과다 생성을 줄이고 유방 세포에 작용해서 암세포로 변화하는 과정을 억제하는 효과를 갖고 있다. - P160

‘걷기만이 살길이다‘ - P161

암이 완치된 이유에 관하여, 흙이 발바닥과 직접 접촉할 때 흙이 갖고 있는 전자(charge)가 암 발생의 원인이 되는 활성산소를 중화 혹은 상쇄시킨 것이 많은 도움이 되었을 것 - P161

활성산소는 전자를 먹으면 중화가 되는데, 흙을 많이 밟으면 활성산소를 중화시키기 때문에 암의 원인이 되는 물질들을 상쇄할 수 있는 특징을 갖고 있어서 도움이 되었고, - P161

암 극복 의지, 삶에 대한 오기(집념), 신진대사 능력, 에너지를 많이 생기게 하고 활성산소를 중화시키는 운동이 암세포에서 나오는 독소를 하나하나 이겨내게 한 것 - P161

암이 완치된 이유에 관하여, 암이 가장 싫어하는 것이 산소인데, 꾸준한 산행으로 많은 산소를 흡입했기 때문이라고 분석 - P162

또한, 발바닥에는 용천혈(湧泉穴)이 있는데, 맨발로 흙을 밟고 계속 걸어서 용천혈을 반복적으로 자극하니 몸의 원기 (에너지)가 충전되었을 것이고, 숲에서 걷기는 피톤치드(phytoncide)의 작용과 더불어 발바닥 혈을 자극해주고 다리 속의 큰 근육들의 근육량을 늘려 주어 (근육이 많아지면 암은 없어진다)암 치료에 도움이 되었을 것 - P162

걷기를 통한 젖 짜기 효과(milking action), 즉 혈행(血行)· 혈류(血流)의 개선, 혈관 탄력 향상, 피의 맑아짐(淸血), 체온 상승, 그로 인한 면역력과 자연치유력 증강 등 걷기의 긍정적 효과도 암이 완치된 이유에 추가될 수 있을 것 - P162

암이 심각한 단계에 이른 후에 필사적인 걷기를 통해 기적처럼 암을 극복하는 것도 중요하지만, 그보다 더 바람직한 일은 암 진단을 받기 전에 미리미리 걷기를 통해 암을 예방하는 것이라고 생각한다. - P162

질병은 사후에 수술적 치료나 약물요법 치료를 통해 치유하는 것보다 사전에 예방하는 것이 더 효과적이고 안전하다. 건강은 건강할 때 지켜야 한다. - P162

우리나라 사람들은 청동기시대 이전부터 주로 곡식을 주식으로 섭취해왔다. 즉, 우리의 선조(先祖)들은 대대로 육식을 거의 하지 않았다. 그리하여 유전적으로 육식에 대한 소화능력이 거의 없는 상태로 진화되어 왔다. - P163

대장암은 치료보다는 조기 검진이, 조기 검진보다는 예방이 중요하다. 대장암 예방을 위해서는 특히 채소와 과일로 식이섬유를 충분히 섭취하고, 붉은 고기(적색육류)나 인스턴트식품, 패스트푸드 등은 멀리하는 것이 좋다. 아울러,
걷기나 달리기 등 일상생활에서 무리 없이 실천할 수 있는 운동을 하루 30분이상, 주 5회 이상 꾸준히 실천하면, 여러 가지 면역물질의 생성이 촉진되고 암 유발 호르몬이 억제되어 대장암을 예방할 수 있다. - P164

규칙적으로 운동을 하는 사람은 그렇지 않은 사람에 비해 대장암 위험이 약 24% 감소한다. 걷기만 꾸준히 해도 대장암 위험이 크게 줄어든다. - P164

식후 30분 정도의 산책은 소화기관의 적당한 출렁임과 진동으로 위장, 소장, 대장의 물리적 연동운동과 소화효소의 화학적 배합을 도와 소화를 촉진한다. 그리하여 식후 산책은 장내 유해균을 감소하게 하고 유익균을 증가하게 함으로써 장내세균의 균형을 유지할 수 있게 해준다. - P164


댓글(0) 먼댓글(0) 좋아요(8)
좋아요
북마크하기찜하기 thankstoThanksTo