요즘 많이 언급되는 통계학 지식 중 이것만큼 유용한 것은 없는 것 같다. 책을 읽고 이해한 것을 다음에 정리한다.


간단히 말하면, 베이즈 정리는 어떤 사실을 알았을 때 그 사실에 연관된 다른 사실이 일어날 확률을 계산하는 방법이다. 예를 들어 설명하는 것이 가장 좋겠다. 보통 많이 나오는 예는 이렇다. 


내가 건강검진을 받았는데, 검진 결과 어떤 병의 양성 판정을 받았다. 만약 검진이 아무 오류 없이 100% 정확하다면 내가 그 병에 걸려 있을 확률은 100%이다. 하지만 모든 검진은 완벽하지 않고 오류가 있다. 이 검진이 건강한 사람도 병에 걸려 있다고 판정할 확률을 5%라고 하자(즉, 건강한 사람 100명 중 5명이 양성 판정을 받는다). 반면, 실제 병에 걸려 있는데 검진이 양성으로 판정할 확률은 간단히 100%라고 하자(이 확률도 실제로는 100%보다 작을 수 있다). 지금 양성으로 판정 받은 내가 실제 병에 걸려 있을 확률은 얼마일까?


이 확률을 계산하기 위해서는 한 가지 중요한 정보가 더 필요하다. 실제 이 병이 발병할 확률이다. 이 병이 발병할 확률을 1%라고 하자. 100명 중 1명 정도로 이 병이 발병한다는 뜻이다. 왜 이 확률이 필요하냐 하면, 100명 중 99명은 건강하지만, 이 중 5%가 양성으로 판정되기 때문이다. 이 숫자는 꽤 크다. 대상 인구를 그냥 100명으로 잡으면, 99명x0.05 = 4.95명이다. 반면 100명 중 1명은 실제로 발병한 사람이고, 이 사람은 검진시 양성으로 판정된다. 그럼 내가 실제 발병한 사람에 들어갈 확률은 1/(1 + 4.95) = 0.168, 즉 16.8%이다. 아주 높지도, 그렇다고 완전히 무시할 확률도 아니다. 


베이즈 정리는 위의 계산을 다음처럼 규칙화 해 놓았다. 


P(발병|양성) = P(양성|발병)xP(발병)/P(양성) 


의미는 이렇다. 좌변의 P(발병|양성)은 ‘조건부 확률conditional probability’로서 검사에서 양성으로 나왔는데 실제로도 발병한 확률이다. 이게 우리가 알고 싶은 확률이다. 이 확률을 조건부 확률이라고 얘기하는 이유는 ‘양성’을 ‘조건’으로 해서 실제 ‘발병’한 확률을 따지기 때문이다. 주의할 점은 조건을 세로줄 다음에 적는다는 것이다. 이게 영어식 표현이라 영어식으로 생각하는 것이 자연스럽다. 영어식으로 말하면 P(발병|양성)은 ‘Probability of 발병 for the given condition of 양성’이다. 양성의 조건일 때 실제로 발병한 확률이다. 


그 다음 우변의 P(양성|발병)은 우리가 이미 알고 있는 정보이다. 앞과 마찬가지로 해석하면, 발병했는데 양성 판정을 받을 확률이다. 위의 예에서 이 확률은 1이다(100%).


P(발병)은 발병할 확률이다. 이 확률은 0.01이다(1%). 


마지막으로 P(양성)의 확률이 필요하다. P(양성)은 양성이 나올 확률이다. 양성이 나올 확률은 두가지 경우가 있다. 실제 발병해서 양성이 나올 확률이 있지만 건강해도 양성이 나올 확률이 있다. 식으로 적으면 이렇게 된다. 


P(양성) = P(양성|발병)xP(발병) + P(양성|건강)xP(건강)


P(양성|발병)xP(발병)은 실제 발병해서 양성이 나올 확률이다. 발병할 확률[P(발병)]에 발병한 사람이 양성으로 판정 받을 확률[P(양성|발병)]을 곱했다. 각 사건event[1]이 독립적일 경우 위와 같이 각 확률을 곱한다(책에서는 이것을 ‘직적시행’이라고 했다). 


한편, P(양성|건강)xP(건강)는 건강하지만 양성 판정을 받을 확률이다. 전체 P(양성)은 각 사건이 나올 확률을 더한 것이다. [두 사건이 중첩되는 부분(교집합)이 없을 경우, 각 확률을 그냥 더하는 것을 ‘확률의 가법법칙加法法則’이라고 한다.] 


위와 같은 베이즈 정리를 이용해서 문제를 풀어보면 다음과 같다:


P(발병|양성) = (1)(0.01)/[(1)(0.01) + (0.05)(0.99)] = (0.01)/(0.01 + 0.0495)

               = (0.01)/(0.0595) = 0.168


위에서 얻은 답과 정확히 일치한다. 


베이즈 정리를 좀 더 일반적인 기호로 적으면 다음과 같다:


P(A|B) = P(B|A)P(A)/P(B).


말로 표현하면, B일 때 A일 확률[P(A|B)]은, A이면서 B일 확률[P(B|A)P(A)]을 B일 확률[P(B)]로 나눈 것(B일 확률로 정규화normalization[2]한 것)이다. 때때로 P(A)를 prior(사전 확률), P(A|B)를 posterior(사후 확률)라고 부르기도 한다. 사건 B의 관찰로 인해 P(A)가 P(A|B)로 바뀌기 때문이다. 사전 확률 P(A)를 사후 확률 P(A|B)로 바꾸어 주는 것은 P(B|A)/P(B)이다. 앞의 예를 이용하면, 검사 전에 발병 확률(사전 확률)은 1%[P(발병)]였지만, 검사에서 양성 판정을 받은 후에 발병 확률(사후 확률)은 16.8%[P(발병|양성)]로 증가했다고 말할 수 있다. 발병 확률이 양성 판정으로 인해 약 17배 증가했다. 


베이즈 정리는 현대에 여러 분야에서 정말 다양하게 활용되고 있다. 베이즈 통계의 역사와 활용에 대해서는 다음의 책을 참조해도 좋겠다.
















[1] 이 책에서는 사건(event)을 ‘사상事象’이라고 했다. 사상은 예전에 쓰던 말이라고 한다. 통계전공자가 책을 감수해서 요새 우리가 사용하는 용어와 함께 영어 표현도 적어주면 120%일 뻔했다. '직적시행', '가법법칙', 너무 어렵고 안 와 닿는다.

[2] 가능한 확률을 모두 더했을 때 1이 되도록 만드는 과정이 확률에서의 정규화이다. P(B)로 나누어 정규화한 것은 B가 발생했다는 상황을 전제하는 것이라고 생각할 수도 있다. 


댓글(0) 먼댓글(0) 좋아요(14)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
 


가끔 흥얼거리게 되는 노래... 빛나는 시간들. 빛바랜 시간들... 지나고 나서야 깨닫게 되는 시간들.


우리네 인생을 영화로 찍으면, 아마 왠만한 영화 못지 않겠지요. 더운 여름 건강히 잘 버티시기 바랍니다. 특히 오늘은 우울하네요.


댓글(0) 먼댓글(0) 좋아요(7)
좋아요
공유하기 북마크하기찜하기
 
 
 















<New Scientist> 6월 30일 호에 "How to think about the multiverse"라는 기사가 있다. 여기에서 CalTech 교수인 션 캐럴Sean Carroll은 이렇게 얘기한다:


One of the most common misconception is that the multiverse is a hypothesis. It's a prediction of theories we have good reason to think are correct.

가장 흔한 오해 중 하나는 다중우주가 가설이라고 생각하는 것이다. 다중우주는 우리가 옳다고 생각할 훌륭한 이유가 있는 이론들이 예측하는 것이다. (29페이지)


요즘 주류 입자물리학자들은 이런 얘기를 아무렇지도 않게 한다. 다중우주는 우리가 가지고 있는 최선의 이론(급팽창inflation 이론 등)이 예측하는 바이지만, 아직 확인된 바가 없고 앞으로도 확인될 가능성이 없다(고 한다). 다중우주는 실험적 사실로 확인되지 않았다. 그럼 가설이 맞지 않나? 션 캐럴이 생각하는 과학은 무엇인가?


주류 입자물리학자들(주로 끈이론 연구자들)은 아직 실험적으로 증명되지 않은 것들을 주장하면서 현재까지 최고(최선)의 이론에 따르면 우주는 이렇게 생겼으니--우주는 10차원이고 입자는 사실 끈--이대로 믿으라고 말한다. 초끈이론에는 초대칭이 전제되어 있으나 초대칭이 예측하는 입자들은 아직까지 CERN의 대형강입자가속기(LHC)에서 발견된 바 없다. 그럼 그 이론은 여전히 이론일 뿐이고 가설일 뿐이다. 이들이 어떻게 입자물리학의 주류로서 다른 이론을 배격하는지는 리 스몰린의 <The Trouble with Physics>에 잘 나와있다. 


레너드 서스킨드(우주의 '풍경landscape'을 주장하는 끈이론 연구자)는 <우주의 통찰>에서 이런 얘기를 한다. 리 스몰린과 편지와 논문을 통해 하는 논쟁의 일부분이다.


   지층, 동위원소, 공룡의 뼈 등 온갖 증거가 존재하는데도 이 세상은 6,000년 전에 창조되었다고 주장하는 사람들이 있다. 이런 사람들을 보면 거의 모든 과학자들이 손가락질을 하며 이렇게 말할 것이다. "그것은 반증 불가능해!" 리 스몰린도 이 말에 동의하리라 확신한다. 나 역시 그렇다. 하지만 그 반대도 마찬가지다. 즉, 우주가 이런 식으로 창조되지 않았다는 주장 역시 반증 불가능하다. 창조론자들이 바로 이런 주장을 펼치고 있다. 반증 가능성이란 기준을 엄격하게 적용하면 창조론이나 과학이나 비과학적이기는 마찬가지다. (11장 인간원리 논쟁, 리 스몰린 VS 레너드 서스킨드, 267페이지)


신랄하고자 하는 바는 알겠는데, 내 생각에 이건 너무 나갔다. 자신들의 이론이 검증 가능하지 않다(반증 불가능하다)고 비판하는 사람들에게, '너는 창조론자들과 똑같아'라고 하는 말이다. 


서스킨드는 이런 식으로 글을 맺는다:


  마지막으로 흥미로운 사실을 보여주는 스몰린의 말을 한마디 인용할까 한다. "내가 우주 자연선택이란 개념을 처음 제안하고 첫 책을 썼던 것은 끈이론이 작금이 상황으로 이어질지 모른다는 걱정 때문이었습니다. 끈이론의 현 상황에 대해서는 서스킨드가 최근의 논문에서 솜씨 있게 설명한 바 있습니다. 그때나 지금이나 나의 목적은 똑똑한 사람들로 구성된 이론물리학계의 서로 다른 집단들이 증거를 바탕으로 하는 합리적 논증을 통해 합의에 도달하려는 노력 없이 서로 다른 믿음으로 쪼개지는 것을 막아보려는 것입니다."

  우선 '이론물리학계가 쪼개지는 것'을 막기 위해 과학적 사실을 제시한다는 것은 말이 안되는 소리다. 내가 특히나 혼란스럽다고 생각하는 부분은 스몰린이 자신이 마치 좋은 과학과 나쁜 과학을 가리는 결정권자라도 되는 것처럼 행동했다는 점이다. 인간원리가 진지한 관심을 기울일만한 가치가 있다고 생각하는 사람들 중에는 뛰어난 과학적 성취를 거둔 유명한 물리학자와 우주론자들이 있다. 여기에는 스티븐 와인버그(Steven Weinberg)[2], 조지프 폴친스키[3], 안드레이 린데[4], 마틴 리스[5] 등이 포함되어 있다. 이런 사람들은 바보가 아니다. 이런 사람들한테 굳이 뭐가 좋은 과학이고, 뭐가 나쁜 과학인지 말해줄 필요는 없다. (11장 인간원리 논쟁, 리 스몰린 VS 레너드 서스킨드, 274~275페이지)


숨이 막힌다. 너는 이런 사람들만큼 뛰어난 성취를 이루지 못했으면 입 닥치라는 말이다. 리 스몰린이 참 대단하다는 생각이 든다. 


<스켑틱> 잡지에는 "우주가 여러 개라고?'하는 기사가 나온다. 난 맨 처음 표지만 보고 '스켑틱'이란 잡지이니, 실험적 증거가 없는 이론은 아직 가설로 받아들여야 한다는 기사라고 생각했다. 하지만 그게 아니었다. '스켑틱' 역시 충분히 회의적이지 않다. 많이 알려진, 칼 세이건의 말로 글을 마치고자 한다:


Extraordinary claims require extraordinary evidence.

엄청난 주장은 엄청난 증거를 필요로 한다.



댓글(2) 먼댓글(0) 좋아요(12)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
2018-12-17 23:34   좋아요 0 | 댓글달기 | 수정 | 삭제 | URL
잘모르시는군요

blueyonder 2018-12-22 13:08   좋아요 0 | URL
네 잘 모릅니다.^^
 

'빅 히스토리big history'란 우리가 오늘 이 자리에 있기까지 우주의 탄생부터 별과 지구의 생성을 거쳐 생물의 진화까지 생각해 보는 접근법을 얘기한다. '히스토리'가 단순한 역사-우리가 보통 알고 있는 역사-라면 '빅 히스토리-거대 역사'는 지금까지 자연과학이 알아낸 우주와 생명의 진화까지 포괄한 개념이라고 할 수 있다. 이런 책을 읽을수록 우리가 지금 여기에 있는 것이 얼마나 대단한 것인가를 깨닫게 된다. 거대 역사의 메시지 중 핵심은 역시, 칼 세이건도 얘기했듯이, 우리는 '별 먼지star dust'라는 것이다. 우주적 관점에서 볼 때 우리는, 나는, 얼마나 하찮은 존재인가. 하지만 우주의 기원을 생각하는 별 먼지는 또 얼마나 대단한 존재인가. 하찮으면서 대단한 존재인 우리의 의미를 깨닫는 것, 이것이 빅 히스토리가 우리에 전해주고자 하는 바라고 생각한다. 















데이비드 버코비치는 예일대의 지구물리학과 교수인데, 그가 강의했던 내용을 재미있게 책으로 엮었다. 짧지만 핵심을 잘 강조하며 과학적 지식도 잘 기술되어 있다. 어느 학자도 빅 히스토리가 담아내는 모든 내용의 전문가일 수는 없다. 지구과학 전공자는 그래도 괜찮은 위치가 아닌가 한다. 버코비치는 겸손하게, 하지만 훌륭하고 유머 넘치게 빅 히스토리의 메시지를 담아냈다. 빅 히스토리 책 한 권만 읽는다면 이 책을 추천하겠다. 
















짐 배것은 <퀀텀스토리>로 우리에게 익숙한 작가인데, 매우 진지하게 위와 같은 빅 히스토리 책을 냈다. 버코비치의 책보다는 훨씬 딱딱하고 엄밀하다. 버코비치 책의 내용보다 더 자세한 내용을 알고 싶은 사람에게 추천한다. 

















'빅 히스토리'를 처음 주장했던 학자들이 보여주는 좀 더 전통적인 관점-인간의 역사까지 비교적 자세히 다루는 접근법-을 알고 싶은 사람은 데이비드 크리스천이 쓴 위의 책을 보면 좋겠다. 오른쪽 원서는 국문판의 정확한 원서는 아니고, 2018년 5월에 출간된 책이다(그래서 페이퍼백이 아직 없다). 데이비드 크리스천은 자연과학자가 아닌 전통적인 역사학자로, 인류 역사를 좀 더 강조하는 편이다. 비슷한 접근법을 취하는 신시아 브라운의 책도 있다.


 


 












아마도 교재로 사용하고자 만든 우리나라 저자들의 책도 있다(대상은 중고생?). 이 시리즈는 (세상에나) 20권까지 있다! 다음에는 4권만 리스트 한다.



























댓글(2) 먼댓글(0) 좋아요(16)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
북다이제스터 2018-07-05 21:44   좋아요 1 | 댓글달기 | URL
괜찮으시다면, 빅 히스토리 원전도 추천하고 싶습니다. <시간의 지도>...^^

blueyonder 2018-07-05 22:09   좋아요 0 | URL
추천 감사합니다.^^ 국내에 2013년에 나왔군요.
 
그래픽노블 제1차 세계대전 - 1914-1918, 프랑스 국민만화가 자크 타르디의 1차 세계대전 연대기
자크 타르디 그림, 장 피에르 베르네 글, 권지현 옮김 / 서해문집 / 2017년 5월
평점 :
절판


전선에서 사병으로 싸우며 온갖 비참함에 노출될 수 밖에 없었던 프랑스 선반공이 화자이다. 담담하지만 있는 그대로 전쟁의 모순을 드러내고 있다. 두리뭉실한 만화 그림이 잔인함을 조금 완화한다. 연도 별로 진행되지만 전쟁의 자세한 전황이 나오는 것은 아니다. 뒤에 글로 된 보충 설명이 있다.

댓글(1) 먼댓글(0) 좋아요(9)
좋아요
공유하기 북마크하기찜하기 thankstoThanksTo
 
 
blueyonder 2018-06-26 21:22   좋아요 1 | 댓글달기 | URL
˝담가병˝이란 말은 처음 들어본다. 다음 사전 찾아보면 ˝들것으로 사람이나 물건을 나르는 병사˝라고 나온다. 영어로 stretcher bearer인 모양인데, 그냥 후송병 아니면 환자운반병 정도가 어땠을까 싶다.