* 讀書日記 141112
<신호와 소음> 서평 별점 ; ★★★
이 책의 제목을 보고 잠시 흥분했다. 신호와 소음을 명확히 구분할 수 있다면 그것은 학문의 종결이다. 이후에는 학문이 필요한 것이 아니고 노동이 필요한 것이다. 그런 상황이 지금에 이뤄졌다고 생각하기 힘들다. 단지 조금이라도 신호와 소음에 관한 지식의 진보가 있기를 바랐다. ... 하지만 없었다.
보통 (철학, 사회과학을 포함하여) 과학 분야의 글을 창의성 글과 정리성 글로 나눈다. 정리성 글의 대표적 예가 <정의란 무엇인가>이다. 나는 <신호와 소음>에서 창의적 글을 기대했으나 정리성 글이었을 뿐이다. 나의 기대를 제쳐놓고 생각하면 좋은 책이다. 정리성 글은 밑줄긋기가 많다. 어디서 읽은 글, 내가 하고 싶었던 문장들이다.
* 밑줄 긋기
p90 고슴도치와 여우
p93 여우는 때로 방송, 사업, 정치처럼 즉각적이고 단호한 순발력이 필요한 영역에서는 잘 적응하지 못한다./하지만 여우는 훨씬 나은 예측을 한다.
p94 여우는 자기가 알지 못하는 것에 대해 고슴도치보다 훨씬 더 많이 안다./자유주의자들은 고슴도치로 기우는 경향에서 결코 자유로울 수 없다./p95 좌파와 우파의 고슴도치들은 특히나 변변찮은 예측을 한 데 비해, 여우들은 자기를 좌파라고 규정했든 우파라고 했든 간에 자신을 중도파라고 한 고슴도치들보다 더 나은 예측을 했다는 사실을 발견했다.
p95 여우가 경험을 동원할 때 예측의 정확도가 더 높아지는 데 비해 고슴도치에게는 정반대 현상이 일어난다는 점이다./자기 편견을 강화하는 쪽으로 조작할 가능성이 더 높아진다
p108 “사실 관계가 바뀔 때, 나는 내 마음을 바꾼다 When the facts change, I change my mind.”
p119 ‘객관적 objective’은 때로 ‘계량적 quantitative’과 동의어로 받아들여지는데, 사실은 그렇지 않다. 이 말은 개인적 편향과 편견 너머에 있는 진리를 바라본다는 뜻이다./인간의 판단이 개재되는 곳에는 언제나 편향이 있게 마련이다./우선 자기가 하는 예측 속에 들어 있는 불확실성을 표현하는 (그리고 계량화하는) 방법을 배울 필요가 있다.
p131 ‘노화곡선 aging curve’/p133 노화곡선에는 소음이 많다.
p155 준비성과 노동윤리, 집중과 초점, 경쟁심과 자신감, 스트레스 관리와 겸손, 적응력과 학습 능력
p160 정확한 예측을 하는 열쇠는 순전이 계량적이기만 한 정보에 의존하는 게 아니라 모든 유형의 정보를 적절한 맥락 속에서 파악하는 좋은 의사결정 과정을 구축하는 것이다.
p161 하지만 사실 많은 경우에는 질적 정보를 양적 정보로 변환할 수 있다.
p189 체계가 동적이다. 즉 어떤 한 시점에 발생한 이 체계의 행동이 미래에 이 체계가 하게 될 행동에 영향을 미친다./체계가 비선형적이다. 즉 덧셈이 아니라 기하급수적으로 증폭되는 관계를 따른다.
p190 카오스는 ‘무작위 random’라는 뜻이 아니다. 카오스 이론은 특정한 유형의 체계들이 매우 복잡해서 예측하기가 무척 어려움을 의미한다.
p196 육안은 소중한 도구다. 두 가지 변수 사이 상호작용을 보여주는 도표를 눈으로 검사하는 작업은 자료에 들어 있는 둘출 사항을 통계적 테스트보다도 빠르고 정확하게 찾아내는 경우가 많다. 또 이 작업은 컴퓨터의 처리 속도가 인간 두뇌의 처리 속도보다 느린 영역이기도 하다.
p197 캡차 CAPTCHA (컴퓨터 사용자가 인간인지 컴퓨터 프로그램인지 구별하는 컴퓨터 테스트. 인간만 통과할 수 있다.)
p198 인간은 컴퓨터가 독자적으로 수행한 예측 작업의 정확도를 약 25퍼센트 개선한다. 기온 예측은 약 10퍼센트 개선한다. 호크 애기로는, 또 이런 비율은 이미 오래전부터 거의 일정하게 유지되고 있다.
p205 품질 quality → 정확성 accuracy ; 일관성 consistency → 정직성 honesty ; 경제적 가치 economic value
p210 기상 예측 소비자가 바라볼 때 가치가 부가되는 것은 정확성 자체보다는 정확성에 대한 인식이다. ; 공부로 바꾸면 공부를 잘하는 것보다 공부를 잘하는 것처럼 보이는 시험성적이 더 중요하다.
p222 기상예보관에게는 정확성이 최상의 정책이라는 점이다. 정치적 관계나 개인적 명성, 경제적 동기 따위를 진실보다 앞세우는 예측은 죄악이다. 때로는 선한 의도에서 이러한 예측이 나오기도 한다. 그러나 그 예측은 언제나 나쁜 결과를 빚어낸다. ; 우리나라에서는 정치가 가장 우선이다. 나쁜 결과와 죄악은 정치가 외주화外主化해 준다.
p252 소음을 신호로 잘못 인식하는 행동에 붙은 명칭이 ‘과잉적합 overfitting’이다.
p264 복잡성 이론 theory of complexity은 카오스 이론과 다르다. ; 몰랐던 것, 어떻게 다른가?
p265 모든 소음은 무작위적이긴 하지만, 이들 소음은 각기 다른 ‘내재 확률분포 underlying probability distribution’를 따른다. ... 무작위 분포에 의해 형성된 백색소음 white noise, 복잡한 체계와 연관된 소음인 ‘브라운의 소음 Brownian noise 적색소음’
p266 어떤 예측이든 간에 예측가가 해야 할 첫 번째 의무는 예측의 진실성에 언제나 충성을 다하는 일이다. 이것이 이 책이 취하는 태도다./넓은 의미의 정치
p273 어떤 통계학자가 평균 수심이 3피트인 강을 걸어서 건너다가 익사했대나 어쨌다나
p281 그 많은 자료에서 의미 있는 것을 찾기란 쉽지 않은 일이고, 때문에 우리는 말도 안 된느 인과관계를 상상하곤 한다.
p283 “정말 예측력이 있는 건 지극히 드뭅니다. 무엇이 우연적이고 무엇이 실제로 상관성이 있는지 알아내는 일은 무척 어렵습니다.”
p285 ‘굿하트의 법칙 Goodhart's law’ ‘정책입안자가 특정 변수를 목표로 삼으면 그 순간 이 변수는 경제지표로서 가치를 잃기 시작한다.’
p286 경제 전문가들에게는 여전히 문제가 남는다. 고정된 것이 아니라 움직이는 표적을 맞혀야 하는 문제다.
p292 나는 경제 전문가들은 예측을 할 때 예측구간 설정을 거의 하지 않는다고 했다.
p301 ‘합리적 편향 rational bias’
p302 좋지 않은 예측을 내는 게 합리적 행동일 수 있다. ... 하지만 경제 예측은 정치 예측보다 ‘판돈’이 훨씬 크다.
p318 외삽 extrapolation
p322 문제는, 어떤 질병에 대한 믿을 만한 R0 추정치가 나오는 시점이 그 전염병이 한 차례 어떤 지역을 휩쓸고 지나간 뒤에, 또 관련 통계 자료를 정밀하게 분석할 수 있는 시간이 흐른 뒤라는데 있다. 그렇기에 역학자들은 얼마 되지 않는 초기 자료를 놓고 외삽 추정을 할 수밖에 없다.
p325 예측이 행동을 바꾼다/자기충족적 예언 self-fulfilling prophecy
p329 자기부정적 예측 self-canceling prediction ... 많은 운전자들이 동일한 내비게이션 시스템을 사용할 경우/자멸적인 특성 ... 독감 예측이 빗나가는 게
p344 예측은 목적이 아니라 수단이다./“모든 모델은 빗나간다. 그러나 몇몇 모델은 유용하다.”
p345 통계 모델은 우주의 복잡성을 이해하는 데 도움이 되는 도구일 뿐이지, 우주를 대체할 수 있는 게 아님을 명심해야 한다.
p358 불가리스의 커다란 비밀은 그에게는 커다란 비밀이 없다는 사실이다./p360 핵심은 그 양상들에 신호와 소음이 얼마나 반영되었는지 판단하는 데 있다.
p374 우주의 대부분이 텅 빈 공간이듯이, 자료 대부분은 소음으로 채워져 있다.
p377 그들이 보기에는 사전확률이 지나치게 주관적이었다.
p378 본질적으로 빈도주의적 접근법은 예측이 툭하면 빗나가는 이유, 즉 ‘인적 오류 human error’를 털어낼 방도를 찾는다./p379 아무리 유용한 자료를 많이 모은다 해도 이 자료를 올바른 방식으로 사용하지 않는다면 전혀 소용이 없다./빈도주의 방법론들은, 연구자의 편견에 절대로 오염될 수 없는 티 한 점 없이 깨끗한 통계적 절차들을 추구함으로써, 연구자들을 실제 세상과 완벽하게 차단한다는 무제다.
p380 베이즈주의 접근법
p381 피셔의 통계철학/그의 통계 방식은 실험의 순수성을 강조한다. 모든 가설은 자료만 충분하게 주어진다면 완벽한 결론으로 검증될 수 있다는 게 이 방식의 가정이다. 하지만 이런 순수성을 확보하려면 베이즈주의적 사전확률의 발상이나 뒤죽박죽인 실제 세상의 온갖 맥락에 대한 필요성을 부정해야만 한다.
p387 사실 베이즈주의의 한 가지 특성은 우리에게 더 많은 증거와 자료들이 주어지면 우리가 가진 믿음들은 저절로 진리를 향해 수렴한다고 보는 데 있다.
p397 문제를 해결할 때의 휴리스틱적 접근법은, 결정론적 해결책을 추구하는 접근법에서는 우리의 실제 능력을 넘어서는, 경험 법칙 또는 어림짐작을 채택한다.
p403 아마추어들은 문제에 부딪치면 흔히 ‘완벽한’한 수를 찾으려고 ... 반면 고수들은 ‘괜찮은’ 수를 찾는다. 이 수는 ‘최상의’ 수가 아닌 게 분명하다.
p405 ‘메타인지 metacognition’
p405 컴퓨터 체스 프로그램은 언제나 큰 그림을 바라보며 전략적으로 생각하지는 못한다.
p423 소음을 신호로 착각하기는 너무도 쉽다.
p424 딥블루는 프로그래머라면 절대 선택하지 않을 수를 두고, 프로그래머들은 이것이 버그인지 아닌지 알아볼 수 없었다.
p426 인간이 고정관념을 깨고 그 너머의 것을 볼 수 있으려면 창의성과 객관성이 균형을 이루어야 한다. 이 같은 재능은 그야말로 희귀하다./피셔가 그 놀라운 수를 찾아낼 수 있었던 건 바로 그가 어렸기 때문이다. 어린 만큼 상상력을 최대한 발동할 수 있었던 것이다.
p432 그러니 진보는 기술 발전의 속도보다 훨씬 느리게 진행될 것이다./많은 점에서 우리 자신이 기술 발전의 가장 큰 걸림돌이다. 인간 진화는 느리고 꾸준한 행진은 기술 발전의 빠른 속도와 보조가 맞지 않는다.
p433 이들이 각각의 프로그램에 있는 강점과 약점을 알고 있었으며, 선수라기보다는 감독처럼 행동했기 때문이다.
p443 그런데 이러한 고정관념은, 고정관념이 원래 그렇듯이, 실재 현실에서 언제나 정확하게 들어맞지는 않는다는 데 문제가 있다.
p454 “불가능한 것을 모두 제거하고 나면, 남은 것들은 아무리 불가능해 보인다 해도 진실임에 틀림없다.” ... 그런데 불가능한 것과 불가능해 보이는 (그렇지만 일어날 수도 있는) 것을 구분하기란 여간 어려운 게 아니다. 또 구분을 너무 세밀하게 하려다 낭패를 당하는 일도 자주 벌어진다.
p458 “삶의 영역 대부분에서 ‘예, 아니요’가 아니라 확률적으로 접근하는 게 아주 중요합니다. ...”
p459 상대가 공격적이고 또 좋은 패를 많이 낼수록, 사람들은 그가 실제로 어떤 패를 들었는지 또 무엇을 하려는지 점점 더 추정하기 어려워합니다. 그럴수록 고수는 상대방의 이런 심리를 조장하고 조정해서 이용하려들지요.
p462 학습곡선 ... 나는 이를 예측의 파레토 법칙 Pareto principle of prediction이라 부른다. (20%의 노력을 하면 80% 정확한 예측 결과)
p464 그런데 중요한 것은 당신이 한 예측이 절대적 의미가 아니라 상대적 의미에서 (즉 상대 선수가 한 예측에 비해) 얼마나 훌륭한가 하는 점이다.
p466 모든 사람이 기본에 충실한 분야에서 탁월한 수익을 내기란 매우 어렵다./p469 호구를 찾아내지 못하면 본인이 되고 만다.
p470 밑천이 떨어지지 않는 호구/그런데 사실 포커판을 계속 이어지게 하는 진짜 주역은 한 사람의 부유한 호구가 아니라 포커판에 끊임없이 유입되었다가 적게는 수백 달러에서 많게는 수천 달러까지 잃고 떠나가는 수많은 신출내기 선수들이다.
p478 하지만 실제 현실에서 자기가 장기적 승자가 될지 패자가 될지 확실하게 알 길은 없다. 승자가 될 가능성을 추정하는 가장 적절한 방법은 베이즈주의적 통계학을 적용하는 것이다.
p479 선수들은 처음 포커 게임에 발을 들여놓을 때 자기가 장기적으로 승자가 되리라고 가정한다. 그러다가 나중에야 크게 뒤통수를 맞고 진리를 깨닫는다./좀 더 범위를 넓히면, 예측을 하는 어떤 분야에서든 지나친 자신감은 커다란 문젯거리로 작용한다.
p481 전체 게임의 90퍼센트에서 세계 정상급 선수의 기량을 발휘해도 나머지 10퍼센트에서 평정심을 잃어버리면 돈을 따지 못한다.
p482 ‘아하 이 사람은 자기가 환상에 빠지지 않는다는 환상에 빠져 있구나’
p483 결과보다는 과정에 초점을 맞춰라./우리는 결과 지향적 사회에 살고 있다.
p490 이 책 추천하는 대로 베이즈 정리가 제시하는 지침을 따른 다는 것은, 확률적 믿음 또는 예측이라는 차원에서 미래를 생각한다는 뜻이다. ; 블랙스완은? /p496 집단 예측이 더 나을까?
p492 사실 자본주의와 베이즈 정리는 같은 지적 전통에서 나타났다./우리의 믿음을 지속적으로 업데이트하면서 점점 개선하고, 사람들 사이에 그 믿음에 이견이 있을 때는 내기를 한다는 점에서 둘은 서로 같기 때문이다. 이 둘은 기본적으로, ‘대중의 지혜 wisdom of crowds’의 강점을 취하는 합의 추구 과정이다.
p511 당신이 특별한 패턴을 포착한다면 또 그 패턴이 명백한 것으로 보인다면, 다른 투자자들도 그 패턴을 발견했을 가능성이 크며, 따라서 그 신호는 신호이기를 포기하기 시작하거나 이미 완전히 소음이 되어 있을 것이다.
p525 사실 대형 증권사들은 전체 무리에서 떨어져 나와 혼자 다른 목소리를 내려 하지 않는 경향이 있다.
p527 트레이더 대부분이 단기간의 실적으로 평가받는 한, 주가는 장기적 가격에서 아래위로 크게 널뛰는 현상이 일어날 수 있다. 아니 어쩌면 이런 현상이 필연적일지도 모른다.
p528 ‘대세를 따라라. 그들보다 특별히 많이 알지 못할 때는 더욱더 대세를 따라라 한다’는 단순한 행동지침은 꽤 잘 들어 맞는 편이다. ... 매우 드물긴 하지만 한 번 일어나면 엄청난 재앙이 된다.
p532 “시장의 비이성적 상황은 사람이 견딜 수 있는 한도를 넘어서까지 오래 이어질 수 있다.”
p532 가격은 올바르지 않다.
p541 그런 착시를 일으키지 않게끔 자신을 통제할 방법은 어디에도 없습니다./인지적 지름길 cognitive shortcut
p542 15년이나 20년 만에 한 번씩 있는 기회다. 그러나 그 오랜 기간을 아무것도 않으면서 나머지 10퍼센트의 기회만을 노리는 것은 어리석은 일이다. ; 그 두 가지를 동시에 노리면서 한 가지만 노리는 사람을 상대로 이길 수 있을까?
p543 질서와 무질서의 투쟁/패스트 트랙 fast track ... 모멘텀 트레이딩 momentum trading, 포지티브 피드백 positive feedback, 편중된 동기, 대세 편승 행동 등
p559 첫 번째 유형의 회의주의는 이기심에서 비롯한다. ... 두 번째 유형의 회의주의는 이른바 반대주의라는 범주로 묶을 수 있다./p560 세 번째 유형의 회의주의가 가장 중요하다. “어떤 과학자들은 일반적인 상식에 대해 근거를 갖고 타당하게 반문합니다. 상황을 타개해나가려면 이런 과학자들의 주장도 존중할 필요가 있습니다.”
p564 하지만 합의를 추구하는 과정을 통해 얼마나 나은 예측이 가능할지를 놓고는 논쟁의 여지가 많다./합의를 통해 이루어진 예측은, 집단에 속한 각각의 개인이 독립적으로 예측을 내놓고 이들 예측을 총합하거나 평균해서 나온 예측과 다르다.
p569 두 가지 유형 ; 하나는 순전히 통계적이다. ... p570 두 번째 유형의 모델은 물리적 역학 시뮬레이션이다.
p571 어떤 예측 모델이든 될 수 있으면 많은 신호를 (그리고 될 수 있으면 적은 소음을) 포착하는 걸 목적으로 한다.
p573 불확실성이 얼마나 높을지에 대한 불확실성이 존재한다./그림 12-3 구조적 불확실성, 초기 조건의 불확실성, 시나리오의 불확실성
p583 불확실성은 예측의 본질이다.
p586 이 대안은, 자기가 동원한 모델이 잘못될 것 같으면 언제라도 초기화할 수 있는 합리적 기준선baseline이다. ; 나는 default라는 말을 사용하는데, 비슷한 의미가 같다. '합리적'이란 수식어가 정당한가?
p589 예측과 과학은 본질적으로 그리고 긴밀하게 연결되어 있다.
p593 끝없이 수정하라 ; 충분한 시간이 될까
p596 기후학자들이 직면한 근본적 딜레마는 장기적 문제인 지구온난화에 대해 단기적 해결책이 필요하다는 점이다. ; 인간이 이런 딜레마를 현명하게 처리한 예를 나는 알지 못한다.
p599 과학에서 진보를 향한 길이 언제나 직선이지만은 않다.
p605 신호는 있었지만, 무엇을 뜻하는지 몰랐다. ; 후향 확증 편향이 아니고 사전에 알 수 있나?
p609 문제가 되는 것은 신호를 포착하는 역량이 아니다. ... 신호를 분석하는 능력이다.
p612 알려진 앎 known knowns, 알려진 미지 known unknown, 알려지지 않은 미지 unknown unknown
p622 반드시 오게 되어 있다. ... 대비해야만 한다. ; 그럴 여유가 항상 있다는 말인가?
p639 낯선 것과 있을 법하지 않은 것을 또다시 혼동할 수 있기 때문이다.
p649 중요한 것은 '우리가 아는 것'이 아니라 '우리가 아는 것과 우리가 안다고 생각하는 것 사이의 차이'다.
p656 우리가 예측할 수 없는 것에 대한 겸손함과 예측할 수 있는 것을 예측할 수 있는 용기, 그리고 이 둘 사이의 차이를 아는 지혜가 필요하다.