[읽고보고듣고쓰고] : 알라딘

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 13:27

https://blog.aladin.co.kr/765045244/15583017

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었는데, 이로부터 파생된 것이 요즘 AI(인공지능)와 관련하여 한 번 쯤 들어봤음직한 용어인 머신러닝과 딥러닝이다. 이 러닝learning들은 ‘텍스트 마이닝‘ 작업을 통해 획득된 다양한 정보들을 반복적으로 학습하는 것인데, 이를 통해 특정 상황에서 학습된 대로 행동하여 문제를 해결하는 것을 목표로 한다.

이와 관련하여 좀 더 세부적인 핵심 내용을 간단히 정리해보자면 먼저 머신러닝이 다양한 경험을 실제로 하면서 배우는 컨셉이라면, 딥러닝은 기계가 실제로 경험하지 못한 것을 추론을 통해 학습하는 컨셉이다.

책에 직접적으로 나온 표현은 아니지만, 머신러닝과 딥러닝을 독자인 나만의 말로 풀어 설명해보자면 머신러닝은 학교나 학원에서 선생님의 수업을 통해 학습내용을 배우는 것이고, 딥러닝은 머신러닝을 통해 배운 학습내용을 기반으로 하여 어떤 새로운 지식을 스스로 추론해가면서 배우는 것으로 생각하면 될 듯 하다.
.
.
.
뒤이어지는 내용에서는 이 책의 앞부분에서 언급되었던 ‘유사도‘라는 개념과 관련하여 ‘연관규칙 분석‘이라는 개념이 등장한다. 이는 우리가 일상생활에 종종 쓰는 말 중 하나인 패턴pattern 이라는 것과 관련이 있다. 이를 분석하는 것과 관련하여 ‘지지도‘, ‘신뢰도‘, ‘향상도‘ 라는 개념이 함께 등장하는데 좀 더 자세한 내용은 밑줄친 부분을 참조해보시면 될 듯 하다.

이 책의 마지막 부분에는 네트워크 분석과 관련된 내용들이 나온다. 노드node, 링크link 같은 기초적인 개념을 바탕으로 ‘중앙성centrality‘ 이라는 개념을 3가지 분류로 나누어서 각각의 데이터들 간의 상관관계를 분석하고 그 속에서 어떤 의미를 찾아보는 과정들이 본문에 간단한 사례와 함께 제시되어 있다.

데이터 분석과 관련한 다양한 사례들을 통해 세상에 여기저기 산재해있는 데이터들을 어떻게 가공하고 분석하느냐에 따라 가치있는 정보들을 얼마든지 도출해낼 수 있다는 것을 확인할 수 있었고, 저자께서 마지막에 말씀해주신 것처럼 어떤 최신 트렌드 같은 것에 이리저리 휩쓸리기 보다는 일단 데이터 분석의 근본부터 잘 알아두는 것, 즉 기본에 충실하는 것이 중요하다는 것을 다시금 느낄 수 있는 시간이었다.

입력된 대상에 대해 판단할 만한 경험이 없으면 아이는 질문을 통해 답을 찾거나 새로운 경험으로 받아들이고 문제를 해결한다. 이것이 일반적인 데이터 분석이다. 즉, 전혀 경험하지 않았던 질문의 해답을 찾는 경우다. - P189

입력된 대상이 과거 경험을 바탕으로 충분히 해석 가능하면 그 경험에서 나왔던 결과를 기반으로 판단을 한다. 이때 경험은 깊이의 차이를 보인다. 단 한 번의 경험한 것과 오랜 경험에 의한 판단에는 분명 차이가 있다. - P189

경험이라는 ‘스냅샷snapshot‘은 단편적으로 이루어진다. 반복된 경험이 누적될수록 판단은 빨라지며, 다양한 경험을 할수록 판단할 수 있는 가치가 많아진다. 이것이 머신러닝이다. 알고리즘을 통해 이후 발생되는 사건과 신호를 인간의 개입 없이 스스로 판단해 결론을 도출한다. - P190

경험하지 못한 것을 판단해 결론을 찾아야 하는 순간도 있다. 옳고 그름을 떠나서 반드시 결론을 도출해야 하는데 이것이 바로 딥러닝이다. 알고리즘이 사람이라면 이 순간 어떤 결론을 도출할 것인가? 딥러닝은 이 해답을 사람의 개입 없이 오로지 방대한 양의 데이터를 통한 학습으로 찾아낸다. - P190

손을 댄 적이 있어서 불에 손을 대지 않는 건 ‘불이 뜨겁다‘라는 사실적 경험에 나오는 것이다. 이것이 머신러닝이다. ‘저 붉게 타오르는 것에 사람들이 손을 대지 않는 것을 보니 아무래도 좋지 않는 물질인 것 같아. 난 손을 대지 않겠어.‘ 이것은 딥러닝이다. - P190

중복된 비율에 따라 유사도를 측정하는 자카드 유사도jaccard similarity - P194

자카드 유사도 공식은 간단하다. 교집합의 크기를 구하고 이를 합집합의 크기로 나누는 것이다. - P194

유사도를 측정하는 데는 거리 계산을 이용할 수도 있지만, 이처럼 중첩비율을 이용해 유사도를 구할 수도 있다. - P196

자카드 유사도 공식은 전체 대비 중첩 비율만을 고려한다는 문제점이 있다. 데이터가 2개 이상 묶여도 그 묶음 자체를 또 다른 하나의 데이터로 보고 유사도를 측정하는 셈이다. 데이터를 사건으로 본다면 특정 사건이 발생할 때 동시에 발생할 수 있는 사건을 확인하는 상대성, 다시 말하면 조건부 확률값을 취할 수는 없다. 즉, 사과가 출현할 때 딸기가 동시에 출현할 확률은 고려되지 않는다. - P197

집합은 (중략) 연관규칙 분석 association rule analysis 의 기초가 되는 개념이다. 그중 교집합은 집합 내 데이터가 얼마나 중복되는지를 판단하는 기준으로, 유사도를 측정하는 공식으로도 두루 사용된다. - P194

자카드 유사도보다 진일보한, 조금 더 복잡한 연관규칙 분석으로 상대성, 조건부 확률 - P197

현실 세계를 유심히 들여다보면 일정한 패턴에 따라 움직인다는 것을 알게 된다. - P198

반복적인 패턴을 찾아 특정 사건이 동시에 일어나는 규칙을 탐색하는 데이터 분석 방법이 연관규칙 분석association rule analysis이다. 다시 말해, 특정한 사건 A가 발생하는 동시에 사건 B가 발생하는 확률이 얼마나 되는지를 찾아내는 분석이다. 연관규칙 분석은 앞서 이야기한 집합 이론에 기초해 확률적인 값으로 표현하는 대표적인 분석 기법이다. - P198

소비자 구매 데이터를 분석해 함께 팔리는 품목을 상품 배치에 활용하는 것을 장바구니 분석 Market Basket Analysis, MBA이라고 한다. 이러한 연관규칙 분석은 마케팅 분야에서 널리 활용되고 있다. - P198

연관규칙 분석의 핵심은 특정 사건 시 동시에 발생하는 사건을 발견하는 것이다. - P199

전체 사건에서 특정 사건이 동시에 발생할 확률을 연관규칙 분석에서 지지도support라 한다. - P199

지지도는 동시 발생 비율을 전체 사건의 수로 나눈 값이라 방향성이 없다. 다시 말하면, 부품 A와 B는 어떤 부품이 먼저 투입되든 상관없이 두 부품이 동시에 활용되는 경우의 수다. - P200

A가 먼저 투입되고 난 뒤에 투입되는 부품이 어떤 것인지를 판별하는 조건부 확률을 구하면 좀 더 정확한 가치를 찾을 수 있다. 이를 연관규칙 분석에서는 신뢰도confidence라고 한다. - P200

도출된 신뢰도 결과가 과연 활용할 만한 가치가 있는 것일까? 이러한 연관규칙 분석 결과가 유의미한지를 판단하는 기준을 향상도lift라 부른다. 향상도는 결과가 과연 우연으로 발생한 것인지를 판단한다. - P201

향상도는 구한 신뢰도 값을 조건 A와 대칭이 되는 상대 값의 전체 대비 출현 비율로 나눈 값이다. - P201

향상도 (lift)=사건 A & 사건 B의 신뢰도 ÷ (사건 B ÷ 전체 발생 사건 수) = P(A|B) / S(B) - P201

신뢰도(confidence) = (사건 A & 사건 B) ÷ 사건 A = P(A교집합B) / P(A) = P(A|B) - P200

지지도(support) = 사건 A & 사건 B ÷ 전체 발생 사건 수 = P(A교집합B) - P200

향상도는 그 값이 정확히 1이 나오면 두 사건은 서로 완전히 독립적이라고 하고 1보다 작으면 음의 상관관계, 1보다 크면 양의 상관관계라고 한다. 따라서 향상도 값이 1보다 크면 그 값만큼 긍정적인 연관관계라고 본다. - P201

인간은 아주 오래전부터 네트워크를 형성한 구성원 간의 관계와 성향, 패턴 등의 특성을 파악하고자 사회학을 중심으로 꾸준하게 연구했다. 사회학적 관점에서 출발해 지금은 사회학뿐만 아니라 모든 분야에서 활발히 활용되는 네트워크를 이용한 데이터 분석 기법이 바로 사회 연결망분석 social network analysis, (이하 네트워크 분석)이다. - P208

네트워크 분석은 인간과 인간 사이의 관계 아니 이를 넘어 독립적인 사건의 관계 속에서 발생하는 현상을 찾는 분석 기법이다. - P208

네트워크는 분석 대상이 있고 대상 간의 관계를 형성하는 것에서 출발한다. 네트워크는 대상을 나타내는 노드node와 대상 간의 관계를 나타내는 링크link 또는 relationship로 구성된다. - P209

네트워크 분석의 핵심은 상호관계 설정이다. 상호관계를 연결 강도로 정의하려면 그 관계가 얼마나 강한지 약한지를 파악해야 한다. 한번 본 사람과 자주 만난 사람과의 관계는 연결 강도가 확연히 다르다. 그래서 대상 간의 링크를 구성할 때는 유사도, 상관계수 또는 연관규칙의 신뢰도 등과 같은 부수적인 관계 설정 값이 반드시 주어져야 한다. - P209

관계에는 방향성이 있다. 이것은 이성 간의 사랑을 생각하면 쉽게 알 수 있다. 내가 누군가를 짝사랑한다면 이는 한쪽 방향으로 흐르는 단방향성의 관계고 서로가 사랑하면 양쪽 모두로 방향이 형성되는 양방향성을 가지게 된다. - P209

네트워크 분석에서는 그림도 중요하지만, 분석으로 어떤 가치를 도출할 수 있는지 의미를 찾는 것이 더 중요하다. - P212

네트워크 분석에서는 노드, 즉 분석 대상이 얼마나 중심적인 위치를 차지하는가를 판단하는 관점인 중앙성 centrality (또는 중심성)이 있다. 중앙성은 독립성 independence, 자율성 autonomy, 지배력 dominance, 영향력 influence 등을 포괄해 설명한다. - P212

연결degree 중앙성은 특정 노드가 다른 노드들과 얼마나 직접 연결됐는지를 판단하는 값이다. 연결 중앙성은 네트워크에서 직접적인 관계의 깊고 낮음을 가늠한다. 연결 중앙성이 높을수록 네트워크에서 중요한 위치에 있다고 판단할 수 있으며, 전체 노드의 개수에서 해당 노드와 연결된 링크 개수의 비율로 측정한다. - P212

다음으로 인접 closeness (또는 근접) 중앙성이다. 이는 특정 노드와 직접 연결된 연결 중앙성과는 달리 간접적으로 연결된 관계를 고려하는 것이다. 인접 중앙성이 높으면 주변 노드와의 교류가 그만큼 활발하다는 것이며 반대로 낮으면 그만큼 독립적이거나 고립된 관계에 있다고 판단한다. - P212

중요한 노드일수록 다른 노드까지 도달하는 경로가 짧으므로 특정 노드에서 출발해 네트워크의 노드들이 얼마나 가까이 위치해 있는지를 확인한다. 인접 중앙성은 해당 노드와 다른 노드간의 거리의 역수*로 측정한다. - P213

*두 수를 곱해 1이 되는 수. 만약 x=1/2이라면 역수는 2가 된다. - P213

마지막으로 사이 betweenness (또는 매개) 중앙성이다. 사이 중앙성은 네트워크에서 특정 노드가 다른 노드 간의 중개자 역할을 수행하는 정도를 의미한다. - P213

인접 중앙성은 다른 노드와의 최단 거리로 계산되지만, 사이 중앙성은 네트워크에서 해당 노드가 최단 경로에 위치한 비율로 계산된다. 즉, 해당 노드가 다른 노드와 노드가 연결될 때 최단 경로에 포함되는 횟수를 측정한다. 따라서 네트워크의 영향력을 판단하는 기준으로 활용한다. - P214

최근 인기 있는 데이터 분석 기법으로 네트워크 분석이 있으며 이를 통해 도출되는 값으로 중앙성이 대표적으로 사용된다는 걸 아는 것이 중요하다. - P215

세상 모든 것이 데이터이듯이 세상의 모든 것은 분석 대상이 될 것이다. - P216

최신 트렌드를 따라 머신러닝이나 딥러닝 같은 복잡한 분석기법에 관심을 두기보다는 먼저 데이터와 친숙해지기를 부탁드린다. - P216

트렌드에 따라 움직이지 말라 - P216

세상은 빠르게 변한다. 하지만 데이터와 데이터 분석은 변함없이 필요할 것이다. - P216

댓글(0) 먼댓글(0) 좋아요(9)

ｌ

찜하기 ｌ

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-31 16:18

https://blog.aladin.co.kr/765045244/15578850

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항분포를 따른다는 얘기와 더불어 이항분포의 결과가 누적되어 수렴되는 값은 정규분포를 따른다는 내용도 있었다. 이에 따라 단순히 삼단논법으로 생각해보면 로지스틱 회귀분석은 정규분포를 따라야 하는 것이 맞을 것 같은데, 예상과는 달리 로지스틱 회귀분석은 정규분포가 아닌 이산확률분포를 따른다. 이러한 예외를 설명하기 위한 것이 바로 푸아송 분포인데, 오늘은 이에 대한 내용부터 시작한다.

과거에 푸아송 분포라는 말을 들어본 적은 있지만, 이 책의 본문에 나온 일종의 비하인드 스토리 같은 것은 오늘 독서를 통해 처음 알게 되었다. 여기 그 이야기를 일일이 쓸 순 없지만, 이 푸아송 분포라는 것이 나오게 된 게 푸아송이라는 사람이 헤어진 옛 연인에게서 30년만에 편지를 받게 된 것이 계기가 되었다는 사실에 참 신기하고 한편으로는 놀랍기도 했다. 이런 걸 보면 우연이라는 게 어떤 획기적인 일을 일으키는 계기가 될 수도 있다는 것을 다시금 느끼게 된다.
.
.
.
푸아송 분포에 대한 내용에 뒤이어 데이터 분석의 목적이 무엇이냐는 질문에 대한 저자의 답변이 나온다. 여기서 핵심은 예측prediction 인데, 이러한 예측을 잘 하기 위한 과정들로 앞선 포스팅에서 봤었던 군집clustering, 분류 classification 이 나온다. 또한 이에 더해 규칙pattern을 찾는 것이 추가로 언급된다. 마지막에는 앞서 언급한 세 가지를 잘 혼합하여 데이터 분석의 궁극적인 목적인 예측prediction 을 하는 것으로 데이터 분석의 모든 과정이 마무리 된다. 저자의 답변 코너를 통해 이제까지 배웠던 내용들의 큰 줄기들을 가볍게나마 정리할 수 있었다.

절을 바꿔서 이번에는 빅데이터에 대한 내용이 이어진다. 빅데이터의 정의와 함께 빅데이터를 잘 다루기 위해 필요한 역량, 그리고 통계 중심의 데이터 분석과 빅데이터 시대의 데이터 분석 간의 차이를 비교하는 내용까지 저자께서 아주 상세하게 알려주셔서 둘 간의 차이가 어떤 것인지를 명확히 구분할 수 있었다.
.
.
.
뒤이어 자연어 처리와 텍스트 마이닝에 대한 내용이 나온다. 이에 대한 본격적인 논의에 앞서 정형과 비정형이라는 것에 대해 간단히 논하는데, 이 둘을 구분하는 기준은 ‘속성‘이라는 것이다. 간략히 언급하자면 정형은 속성이 이미 정해져 있는 것이고, 비정형은 속성이 아직 정해져 있지 않은 것이다. 데이터 분석은 정형과 비정형 모두에 적용되는 개념인데, 아무래도 비정형인 경우에 좀 더 복잡해진다. 왜냐하면 속성이 아직 정해져 있지 않기 때문에 그것을 찾고 의미를 부여하는 과정이 정형에 비해 추가되기 때문이다.

이어서 자연어라는 것은 말 그대로 일상에서 사용하는 언어를 의미하는데, 이러한 자연어가 포함된 각종 문서같은 텍스트들을 데이터 분석에 적합하게 만들기 위해 그 안에 있는 속성들을 파악하는 기법을 자연어 처리라고 지칭한다.

이 부분을 읽으면서는 예전에 한 과학잡지에서 AI가 학습하는 과정을 설명하는 article을 본 적이 있는데, 거기에서 자연어라는 용어를 봤던 기억이 문득 떠올랐다.

다시 본론으로 돌아와서 자연어 처리가 중요한 이유를 간단히 언급하자면 본격적인 데이터 분석에 선행되는 작업이기 때문이라는 게 일단 가장 큰 이유다. 기타 다양한 이유들도 있지만 가장 핵심은 데이터 분석의 사전작업 성격 때문이라고 말할 수 있다.

이와 비슷한 개념으로 텍스트 마이닝이라는 것도 나오는데 이는 앞서 자연어 처리로 1차 가공된 데이터들을 다시 분석하여 그 안에 내재된 의미나 의도 등을 파악하는 거라고 보면 된다. 이 책이 데이터 관련 서적치고는 비교적 초심자들에게 맞춰서 핵심만 쓰다보니 구체적으로 들어가지는 않지만 일단 이 정도의 기본 개념만 알고 있어도 좀 더 심화된 다음 단계로 나아가는 데 도움이 될 듯 하다.

실험횟수가 많으면 대체로 정규분포를 따른다. 하지만 그중에서 정규분포를 따르지 않는 이산확률은 어떻게 설명할까? 그 해답은 푸아송 분포Poisson distribution에 있다. - P165

여기서 말하고자 하는 것은 바로 앞서 계속 이야기한 실험이나 관찰 횟수의 시간 간격이다. 옛 연인에게서 온 편지는 30년 만에 한 번이고 프랑스의 극악 범죄는 100년에 한 번이다. 이를 실험에 빗대자면 30년과 100년을 기다려야 두 번째 실험이 가능하다. 긴 시간을 기다린다면 실험 횟수는 꾸준히 증가하겠지만, 실험 횟수로 정규분포를 충족하기에는 시간이 너무 오래 걸린다. 그러므로 딱히 정규분포를 따른다고 이야기하기도 그렇다. 그래서 푸아송 분포가 필요하다. 푸아송 분포는 시간이 충분히 흘러 그 시행 횟수가 충분하다고 가정한다. - P167

푸아송 분포의 핵심은 사건이 발생한 시간 간격(람다)으로, 일정한 간격으로 발생하는 사건의 확률을 구한다. - P167

푸아송분포는 시행횟수가 충분히 많아도 그 확률이 매우 낮을 때 이용한다. - P167

인공지능을 간단하게 표현하면 스스로 판단하고 결정해서 행동하는 것을 의미한다. 이미 내가 할 일을 알고 행동한다는 것은 선행 예측이 이루어진다는 것이다. 그러므로 ‘데이터 분석의 최종 목적은 예측에 있다‘고도 볼 수 있다. - P168

하물며 우리가 점을 보는 것은 미래를 보기 위함이지 내 삶을 돌아보고자 하는 건 아니지 않은가. - P168

군집과 분류를 중요하게 생각하는 이유는 실무에서 공략 대상, 즉 분석 대상을 명확히 하는 데 군집과 분류가 매우 유용하기 때문이다. - P168

규칙이란 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악하는 작업을 의미한다. 규칙을 찾으면 바둑처럼 다음 수가 보인다. - P168

새로운 상황을 설계하고 해당 상황에 유연하게 대처할 수 있는 신의 한수를 찾는 일 (예측) - P169

원래 데이터란 현실 세계에 존재하는 모든 것이다. - P173

시장조사기관 가트너는 기존 데이터와 구별하는 빅데이터의 요소를 3V로 설명한다. 3V는 대용량 데이터 (volume, 크기)와 이를 빠르게 처리하는 기술(velocity, 속도), 다양한 종류의 데이터(variety, 다양성)를 의미한다. 적어도 이 세 가지 특성이 있어야 빅데이터라고 부를 수 있다. 최근에는 여기에 정확성 Veracity 또는 가변성 Variability을 추가해 4V로 설명하기도 한다. - P173

빅테이터를 포함한 모든 데이터는 분석 대상이라서 빅데이터에는 분석의 개념이 포함돼야 한다. 그리고 모든 데이터 분석 활동은 가치를 창출해야 한다. - P173

빅데이터는 빠른 속도로 데이터를 수집하고 발굴해 분석한 후 유용한 가치를 창출하는 다양한 형태의 거대한 정보 집합체를 의미한다. - P173

빅데이터 분석은 모든 유형의 데이터와 적절한 컴퓨터 기술, 그에 맞춤화된 알고리즘과 가치 창출을 위한 유용한 통계적 분석 기법의 결합이다 - P174

빅데이터의 성공적인 공략을 위해서는 대용량 데이터를 자원화하고 이를 가공, 분석, 처리하는 기술을 갖춰야 하며 도출된 결과와 의미를 통찰하는 인적 자원도 있어야 한다. - P175

고된 혁신으로 가는 길에 밑거름이 돼줄 훌륭한 도구가 바로 빅데이터 분석이다. 조직의 행동 패턴, 주변 혹은 시장의 변화와 변동 사항을 알면 바꾸고 도전해야 할 목표를 명확히 설정할 수 있다. - P176

빅데이터 분석은 우리가 가진 능력을 좀 더 효율적으로 분배하고 최대로 이끌어 내게 한다. 어디에서 병목현상이 발생하는지, 어느 부분을 혁신하면 새로운 도전이 가능한지를 분명하게 설명할 수 있다. - P176

빅데이터 역시 분석에 따른 가치가 충분히 창출돼야 의미가 있다 - P177

빅데이터 분석의 핵심은 가치가 있는 데이터를 모으는 것이다. 가치가 있는 데이터가 충분해야 분석을 통한 결과도 신뢰성이 확보된다. 즉, 데이터의 가치에 따라 빅데이터 분석의 성패가 결정된다. 이러한 가치 있는 데이터를 모으는 활동, 그것이 바로 데이터 마이닝 data mining이다. - P177

데이터 마이닝은 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정인 반면, 데이터 분석은 분석 대상이 명확 - P178

통계 분석에서는 대상이나 표본자료 간의 관계가 성립되거나 유사한 대상을 기준으로 하지만, 데이터 분석은 전혀 어울릴 것 같지 않는 대상 간에도 관계를 도출하고 연관성을 찾을 수 있다. - P178

통계 분석은 정교한 분석 기법을 실행해 그 가치의 정확성을 높이는 데 치중하지만, 빅데이터 분석은 정확성은 물론 다양한 기법을 결합해 전혀 예상치 못한 결과를 도출하는 것에도 큰 의미를 부여한다. - P178

빅데이터 분석은 단순히 통계적 분석 기법만을 요구하지 않는다. 다양한 분야의 지식과 컴퓨팅 기술, 여기에 적절한 알고리즘 능력과 인문학적 이해 같은 다양한 학문과 기술을 요구한다. - P179

이전의 통계 분석을 중심으로 한 데이터 분석은 분석 결과를 해석하고 도출된 가치를 판단해 의사결정을 수행하는 반면, 빅데이터 시대의 데이터 분석은 분석 자체가 곧 의사결정이 되고 실행된다. - P179

데이터 분석의 핵심 재료는 데이터다. 데이터가 있어야 분석도 하고 결과를 가치로 연결할 수 있다. 그것이 통계 분석이든 빅데이터 분석이든 재료가 있어야 한다. - P182

시대가 급변함에 따라 데이터도 함께 변하고 있다. 이제 데이터를 분류하는 척도뿐 아니라 그 생김새 (유형)까지도고려해야 하는 시기에 접어들었다. - P182

‘데이터는 현실 세계에 존재하는 모든 것‘ - P182

데이터 분석을 할 현실 세계의 모든 것은 머릿속, 데이터베이스, 엑셀 시트 등 어딘가에 저장돼 있다. - P182

개체, 속성, 값의 관계 - P183

현실 세계의 모든 것을 확인하고 그 특징인 속성을 구분해 해당 속성에 값을 정리한 것 (정형 데이터) - P183

사람, 상품, 생각 등 현실 세계의 모든 것은 그들이 가진 속성에 따라 정리할 수 있다. - P183

정형과 비정형 데이터의 구분 기준은 속성이다. 정형 데이터는 미리 정해진 속성에 따라 정제해 분류된 데이터를 말하고, 비정형 데이터는 데이터 안에서 속성을 찾아서 의미를 새롭게 부여해야 하는 데이터다. 따라서 정형과 비정형 데이터는 그것이 정해진 속성에 따라 구분되냐 아니냐의 차이가 있다. - P183

비정형 데이터 분석은 정제되지 않은 데이터를 통해 그 안에 품고 있는 속성을 탐사하고 의미를 부여해 가는 과정이다. 비정형 데이터는 날것 그대로다. - P183

비정형 데이터를 ‘아직 속성을 파악하지 못한 데이터‘ 라고 말하면 어떨까? - P183

인사말이 적힌 문서는 아직 그 안에 들어 있는 속성이 정리되지 않은 비정형 데이터였다. 따라서 문서 그대로를 하나의 데이터로 본다면 이제 그 안에 내포된 속성을 찾고 의미를 부여해야 했다. - P184

문서에 포함된 언어는 일반 사회 속에서 서로의 약속에 따라 사용된다. 이렇듯 일상에서 사용하는 언어를 자연어natural language라 하는데, 이러한 자연어의 속성을 파악하는 기법을 자연어 처리 natural language processing 라고 한다. - P184

인터넷의 보급과 IT 기기가 보편화되기 이전의 데이터 분석은 속성에 따라 구조화된 데이터의 표본을 다루는 데 더 많은 노력과 시간을 투자했다. 그러나 비정형 데이터가 급속도로 증가한 지금은 자연어 처리와 관련한 연구와 노력이 데이터 분석 분야에서도 매우 중요하게 인식되고 있다. - P184

자연어 처리의 범위는 음성과 문서를 모두 포괄하며, 이제 자연어 처리를 넘어 자연어 생성 분야까지 연구가 확대되고 있다. 오늘날 자연어 처리는 인공지능의 중요한 영역으로서 활발히 연구되고 있다. - P184

자연어 처리 기법은 가히 ‘신의 영역‘이라 할 정도로 아직은 어렵고 난해하다. 이런 이야기를 하는 건 단순히 언어적 기능과 문법의 의미, 패턴, 형태를 반영하는 것을 넘어 이제 언어에 내포된 감정 영역까지 다루기에 하는 얘기다. - P185

현재의 데이터 분석은 단순한 기법 하나로 가치에 도달하기가 쉽지 않다. 즉, 우리가 원하는 방향으로 데이터가 알아서 속성별로 정리된 구조화된 형태가 되지 않는다는 이야기다. 결국 자연어 처리 기법은 데이터 분석에 앞서는 전처리 과정으로서 매우 중요하다. - P185

자연어 처리 분야는 인공지능 분야와 연결된다. - P185

텍스트 마이닝은 글로 표현된 모든 것을 파악해 그 안에 내포된 의미와 의도, 성향 등을 구별하는 기법이다. - P186

텍스트 마이닝으로 도출된 모든 결과가 반드시 가치로 연결되는 건 아니라는 뜻이다. 텍스트 마이닝은 데이터 분석 기법이 아니기 때문이다. 물론 텍스트 마이닝의 결과는 충분히 유용하다. 그러나 여기에 그치지 않고 데이터 분석까지 이어서 하는, 즉 데이터 분석을 위한 전처리로 텍스트 마이닝을 하는 경우가 더 많다. - P186

텍스트 마이닝뿐 아니라 현재 모든 데이터 마이닝은 한 가지 기법만으로 충분히 설명되지 않는 경우가 많다. 여러 복합적인 분석 기법을 활용하는 능력이 데이터 분석가에게 중요하다. - P187

추가로 텍스트 마이닝이 중요한 이유는 일상에서 언어, 즉 자연어로 의사소통을 하기 때문이다. 여기서 언어는 음성과 문자 모두를 말한다. - P187

음성 인식이든 문자 인식이든 분명한 것은 상대방의 의도와 의미를 파악하는 것은 인공지능을 넘어 미래의 가치 창출에 핵심이 될 거란 점이다. - P187

데이터 마이닝을 넓은 의미로 보면 데이터 분석을 하기 위해 데이터를 구조화하는 작업이라고 할 수 있다. - P187

머신러닝 machine learning과 딥러닝 deep learning은 모두 데이터를 활용해 인간의 지시 없이 작동하는 알고리즘이라 보면 된다. 데이터를 재료로 활용하지만 진행 과정은 컴퓨터과학에 더 가깝다. 이 알고리즘은 새로운 신호 (데이터)가 들어오면 자동으로 계산하고 판단해 실행에 옮긴다. - P189

알아서 판단하고 알아서 결정하는 알고리즘. - P189

판단 방식은 크게 두 가지로 나뉜다. 입력된 대상을 이전에 경험한 적이 있는가와 없는가다. - P189

댓글(0) 먼댓글(0) 좋아요(8)

ｌ

찜하기 ｌ

지난 포스팅 중후반부에서 데이터의 속성을 파악해 분류...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-30 18:07

https://blog.aladin.co.kr/765045244/15575852

지난 포스팅 중후반부에서 데이터의 속성을 파악해 분류하고 군집하는 데 활용되는 ‘유사도‘ 라는 개념과 함께 ‘유클리드 거리 측정법‘을 비롯한 유사도를 측정하는 몇 가지 방법들을 배웠었는데, 오늘은 유사도로 표현할 수 있는 군집화 데이터 분석 기법에 대해 알아본다.

k-최근접 이웃 알고리즘, k-평균 군집화 같은 방법들이 예시와 함께 소개되는데, 초보자라도 여기까지 이 책에 나온 개념(유클리드 거리 공식, 유클리드 유사도 등)들을 잘 익혔다면 충분히 이해할 수 있는 예시였다. 낯선 용어일지라도 저자의 친절한 설명과 함께한다면 적어도 개념을 이해하는데는 크게 문제가 없을듯 하다.

이 챕터의 마지막 부분에는 빅데이터 담당자에게 필요한 소양에 대해 질의응답하는 형식으로 글이 나와 있는데, 저자는 단순히 데이터 분석만 하는 사람보다는 데이터 분석에 더해 비즈니스 이해력이 뛰어나고 분석 결과를 올바르게 해석할 수 있는 지식을 갖춘 사람을 뽑는 것이 낫다는 얘기를 덧붙인다. 저자는 아직 이런 요건에 부합하는 사람이 많지 않다는 말과 함께 데이터 분석 분야의 미래가 밝을거라는 조심스러운 전망도 내놓는다.
.
.
.
절을 바꿔서 다음 챕터에서는 예측분석 기법에 대한 간략한 분류와 소개가 나온다. 크게 정성적 분석과 정량적 분석으로 나뉠 수 있고, 이 책에선 아무래도 데이터를 다루다보니 정성적qualitative 분석보다는 정량적 quantitative 분석 쪽에 포커스가 맞춰져 있다. 정량적 분석에서도 특별히 시계열 분석과 관련된 개념들이 많이 소개되어 있다.

뒤이어 ‘로지스틱 회귀분석‘이라는 것이 나오는데, 이런 저런 얘기들이 많이 나오는데 이것의 특징은 연속되지 않는 이산적인 값을 취하므로 정규분포를 따르지 않고 이산확률분포를 따른다는 것이다. 또한 범주category별로 데이터를 분류한다는 특징도 있다. 이외의 자세한 내용은 본문을 직접 읽어보시길 추천드린다. 여기서 일일이 논하기가 녹록치 않다.

p.163에는 베르누이 분포와 관련한 내용들이 나오는데, 특별히 독자인 내가 밑줄친 부분에 덧붙여 저자께서 강력추천 하신 것이 하나 있었다. 이 책에서 주로 다루는 데이터와는 별개의 내용인듯 한데, 바로 베르누이 방정식을 통한 비행 기술의 역학에 대한 것이다. 비행기의 부양 원리에 대해 잘 나와있다고 하니 혹시 이 쪽 분야에 관심이 있으셨던 분들이라면 관련 책이나 자료들을 찾아보면 좋을 듯 싶다.

다시 본론으로 돌아와서 베르누이 분포와 이항분포를 구분하는 기준에 대한 언급이 있는데, 여기서의 핵심은 시행횟수의 차이다. 전자는 단 한 번만 시행하지만, 후자는 여러번 반복적으로 시행한다는 것이다. 이것은 중요한 차이인데, 여러번 반복적으로 시행한 결과를 누적해서 수렴시키면 최종적으로는 정규분포를 따르게 되므로 다방면으로 활용도가 높아지기 때문이다.

뒤이어 관련된 추가적인 내용들이 나오는데 다음 포스팅에서 다뤄보도록 하겠다.

데이터 분석의 가장 기본은 데이터를 특성에 따라 분리하는 것이다 - P131

유사도로도 데이터를 분류하고 특성에 따라 구분할 수 있다. - P132

유사도로 표현할 수 있는 군집화 데이터 분석 기법 - P132

K-최근접 이웃 알고리즘 k-nearest neighbors algorithm, (이하 k-NN)는 이렇게 데이터 속성을 파악해 가장 가까운 이웃을 묶는 데이터 분석 기법이다. - P133

k-NN을 간단히 설명하면 이렇다. 기존 데이터 집단이 있다. 이 데이터 집단을 특정 기준에 따라 분류하고 분류한 집단마다 명패를 부여한다. 새로운 데이터는 분류된 집단에서 가장 인접한 집단에 배치한다. - P133

k-평균 군집화k-means clustering, (이하 k-means) 기법은 거리를 통해 새로운 데이터를 분리된 군집에 추가하는 점에서는 K-최근접 이웃 알고리즘과 유사하지만 몇 가지 다른 특징이 있다. - P135

k-means는 n개의 데이터를 k개의 군집으로 분리해 경계선을 작성한다. 여기서 보듯이 k-means에서 ‘k‘는 군집의 개수다. 이렇게 분리된 각 군집의 평균 거리를 계산 (중심값)하고 군집별 중심값과 비교해 거리가 가장 가까운 것을 선택한다. - P135

만약 새로운 데이터가 k-1 군집에 포함되면 해당 k-1 군집은 평균 거리를 다시 계산해 새로운 중심값을 도출한다. 따라서 새로운 데이터가 들어올 때마다 군집의 모양이 변하고 경계선이 새롭게 작성된다. 새로운 데이터가 들어온 k-1 군집은 타 군집과 중심값을 다시 비교해야 한다. 중심값의 변화가 가장 적고 경계선의 이동이 없을 때까지 앞의 과정을 반복한다. - P136

k-NN, k-means 모두 핵심은 정확한 거리 계산이다. 두 기법은 거리 계산에 대한 명확한 기준만 설정된다면 개념이 복잡하지 않으며 구현이 쉽다는 장점이 있다. 이런 이유로 k-means 기법은 데이터 분석에서 군집화에 매우 폭넓게 활용되고 있다. - P137

자고로 빅데이터 전문가라면 자원관리, 기술관리, 분석 능력 등이 두루겸비 돼야 하는데 - P138

빅데이터 분야는 기술과 자원, 분석 인력이 적절한 조화를 이루어야 그 힘을 충분히 발휘할 수 있다. 그래도 굳이 담당자를 한 사람 채용해야 한다면 비즈니스 이해력이 뛰어나고 분석 결과를 올바르게 해석할 수 있는 해박한 지식이 있는 사람을 뽑는 것이 낫다. 그게 아니라면 그냥 훌륭한 업체 찾아서 좋은 파트너십을 유지하자. 단, 그들이 가진 분석 기술만큼 비즈니스에 대한 이해도 높은 파트너로 말이다. - P138

빅데이터를 활용한 기업의 가치와 미래에 대비하기를 원한다면 충분한 투자가 있어야 한다. 빅데이터를 통한 기업의 가치 상승은 투자다. - P138

미래는 언제나 준비된 자에게 기회를 준다. - P139

과거 데이터의 흐름은 장·단기적인 예측이 가능하다 - P142

어쩌면 데이터 분석은 수요 예측과 같은 명확한 예측 값만을 요구하는 것이 아닐지도 모른다. 방향성, 대상, 목표, 규모, 전략 수립 등 모든 통찰insight을 원하는 행위가 더 나은 내일을 위한 것이라면 데이터 분석은 예측foresight 이 전부라 할 수 있다. - P143

더욱이 하루가 다르게 쌓여가는 데이터를 통해, 요즈음 밸류러시 시기를 보내는 우리에게는 더욱 정교한 예측 값이 기다리고 있지 않을까? 그래서 그리 멀지 않은 미래에 산유국이 아닌 산료국이 세상을 움직이는 동력이 될 것이라 믿는다(실제로 미국의 IT 조사 기관 가트너는 데이터를 21세기의 원유라 정의했다). - P143

데이터로 미래를 예측할 때 (예측분뿐 아니라 모든 데이터 분석을 포괄해)는 두 가지 전제가 명확해야 한다. 첫 번째는 배경에서 설명했듯이 그 대상이 명확해야 한다. 단순히 어떤 데이터를 활용할 것인가의 문제만이 아니라 어떤 목적을 위해, 도출된 결과를 어떻게 활용한다는 것까지 고민해야 한다. 그리고 두 번째는 어떤 분석 기법을 활용해 문제를 해결할 것인가를 명확히 하는 것이다. - P144

정성은 상태 표현, 정량은 수치 표현이다. 정량과 정성은 분석 자료와 과정이 주관적인지 객관적인지에 따라 구분되는 것이다. - P145

조사는 정성적으로 하되 결과는 정량적으로 처리하는 것이 현명하다 - P145

정성적 예측 기법에는 전문가의 의견을 수렴하는 델파이 기법과 각계각층의 이해관계자로부터 공개적으로 의견을 수렴하는 패널 조사법Panel analysis, 직접 시장 상황을 파악하는 시장 조사법 market research 등이있다. 가끔 뉴스 등에서 전문가 의견을 듣고 향후 전망을 이야기하는게 바로 정성적 예측 기법이다. - P146

정성적 예측은 전략을 세우거나 장기적 관점에서 발전 방향을 수립할 때 많이 활용한다. 신문이나 관련 서적 등으로 동향을 파악하고 전략을 세우는 과정 역시 정성적이라 볼 수 있다. 하지만 정성적 예측은 정량적 분석보다 상대적으로 시간과 비용이 많이 든다는 단점이 있다. - P146

시계열時系列, time series을 문자 그대로 풀이하면 시간을 묶어 나열하는 것을 의미한다. - P147

시계열의 의미를 재해석하면 ‘시간의 흐름에 따라 데이터를 나열한 것‘으로 바꿔 말할 수 있다. 좀 더 정확히 말하면 과거 데이터를 일정한 시간으로 구분해 데이터를 분리하고 순차적으로 나열해 놓은 상태를 의미한다. - P147

시계열 분석을 통한 예측은 과거 흐름이 미래 흐름과 크게 다르지 않을 것이라는 전제하에 오롯이 과거 데이터만을 활용한다. 따라서 자료를 수집하거나 조사하는 시간이 다른 예측 기법보다 상대적으로 적다. 또한 복잡한 분석 기법이 아니어도 충분히 예측할 수 있다. - P147

시계열 분석의 핵심은 시간을 어떤 수준으로 연결해 묶을 것인지의 판단이다. 이것은 과거의 흐름을 패턴화하는 작업이다. 일정한 간격으로 나뉜 시계열 데이터는 몇 가지 특성화된 패턴을 가지고 있다. - P147

가장 보편적인 시계열 예측 기법으로는 이동평균법과 지수평활법이 있다. 이밖에도 회귀분석과 유사한 추세분석법, 앞서 소개된 네가지 특성(경향, 순환, 계절, 우연)에 따라 시계열 데이터를 분해해서 세밀하게 관찰하는 시계열분해법이 있다. - P148

이동평균법은 가장 구현이 쉽고 보편적으로 누구나 이용할 수 있다. 이 시계열 예측 기법은 앞서 설명한 네 가지 특성의 변화가 적어 과거 데이터의 변화폭이 적고 일정하게 유지될 때 사용하면 유리하다. 시계열 데이터를 일정 구간으로 나누어 정리하고 각 구간의 평균을 구해 다음 차수의 예측치를 구한다. 따라서 단기 예측에 많이 활용한다. - P148

이동평균법에는 이처럼 구간 평균으로 다음 차수를 예측하는 단순이동평균과 예측하고자 하는 차수의 바로 직전 데이터가 가장 많은 영향을 준다 가정하고 가중치를 부여해 그 합을 구하는 가중이동평균이있다. - P149

이동평균법은 손쉽게 예측 가능하나 네 가지 특성(경향, 순환, 계절, 우연)을 그다지 고려하지 않기 때문에 전 과장의 매출 데이터처럼 변동이 심하면 적합하지가 않다. 그래서 이동평균법의 예측 정확도를 높이기 위해 시계열분해법을 접목해 사용하는 경우가 많다. - P149

시계열분해법은 시계열 데이터의 네 가지 특성에 따라 시계열 데이터를 분해해 특성별 지수를 산출하고 이를 이동평균법 등에서 산출한 예측치에 대입해 더욱 정교한 값을 구한다. - P149

시간 흐름이 미래 예측치에 어떤 영향을 주는지를 파악해 분석하는 추세분석법은 인과분석인 회귀분석과 같다. 두 예측 기법의 차이라면 회귀분석은 특정 요인을 독립변수 (영향 요인)로 하고 결과를 예측하지만, 추세분석은 독립변수로 오로지 시간의 흐름을 반영해 결과를 도출한다는 점이다. 즉, 단순 회귀분석을 수행하는 과정과 같으나 독립변수가 시간이 된다. 추세분석법 역시 시계열분해법으로 구한 특성별 지수를 반영해 예측을 더 정교하게 할 수 있다. - P150

지수평활법은 가중이동평균과 비슷하게 가중치를 부여해 미래를 예측하는 기법이다. 이동평균법과 마찬가지로 단기 예측에 유리하며 네 가지 특성의 변화가 적을 때 이용할 수 있다. 지수평활법은 가중이동평균법에서 최근 데이터가 가장 많은 영향을 줄 것으로 판단하는 것처럼 평활상수라는 값을 구한다. 평활상수를 구할 때는 예측치와 실측치의 오차를 이용한 방법을 가장 많이 사용한다. - P150

시계열 분석을 알아봤다. 중요한 것은 시간에 따라 누적된 과거 데이터를 활용해 미래를 예측하는 기법에 어떤 것이 있는지를알고 예측이 가능함을 인지하는 것이다. - P150

회귀분석은 인과관계를 파악해 연속형 변수 간의 적합도를 함수식으로 구하는 대표적인 예측 기법이다. 회귀분석은 상관관계는 기본이고 영향을 주는 독립변수와 영향을 받는 종속변수가 반드시 있어야 한다. 다시 말해 회귀분석은 독립변수가 변함에 따라 종속변수가 어떤 변화를 보이는지를 설명하는 모형이다. - P153

종속변수를 결과로 본다면 결과에 영향을 주는 요인인 독립변수의 개수에 따라 단순회귀분석 simple regression analysis과 다중회귀분석 multiple regression analysis으로 구분한다. - P153

데이터 분포를 직선으로 연결하고 이를 추정해 구한 절편 와 기울기 b를 회귀계수라 부른다. 데이터의 상관관계를 선으로 연결해 함수식을 추정하는 회귀분석은 선형회귀분석linear regression analysis 이라 한다. 선형회귀분석도 독립변수의 개수에 따라 하나면 단순선형회귀분석simple linear regresion analysis 2개 이상이면 다중선형회귀분석multiple linear regression analysis이라 한다. - P156

시간과 공간의 가치창출 - 로지스틱 회귀분석 - P157

로지스틱 회귀분석은 회귀모델 중에서도 많은 분야에서 활용되는 이진 확률모델이다. 전형적인 범주형 모델로 결과의 가능성을 진단해 예측하는 대표적인 데이터 분석 기법이다. - P157

로지스틱logistic은 물류를 의미한다. 물류物流는 한자 그대로 물건의 흐름이다. 데이터 분석에서 물건은 데이터이므로 물류는 데이터의 흐름이라고 생각할 수 있다. - P158

물류라고 하면 가장 먼저 떠오르는 단어는 창고다. 물류창고에 가본 사람은 알 것이다. 그곳에는 특정한 기준에 따라 여러 물건을 분류해 저장한다. 즉, 로지스틱 회귀분석은 회귀분석을 통해 데이터를 분류하는 분석 기법이라 할 수 있다. - P158

로지스틱 회귀분석은 회귀분석을 수행한 결과를 기준에 따라 분류해 범주에 포함한다. 회귀분석에서 결과는 곧 영향을 받는 종속변수다. 따라서 로지스틱 회귀분석의 결과, 즉 종속변수는 범주형이라는 결론에 도달할 수 있다. 범주에 넣으려면 데이터를 기준에 따라 분류해야 하는데, 이 기준을 데이터 분석에서는 척도尺度, scale라고 한다. - P159

로지스틱 회귀분석에서 취하는 범주형 종속변수의 대표적인 척도는 참과 거짓을 구분하는 이산형(명목척도)변수다. - P160

선형회귀분석으로 구하는 종속변수 Y 값을 확률값으로 바꾸고(이 과정이 로지스틱 회귀분석의 핵심) 임의로 설정한 기준 값(임계치), 예를 들어 0.5 라고 가정했을 때 Y의 확률값이 0.5보다 크면 양성종양, 0.5보다 작으면 음성종양으로 구분하는 것이다. - P161

결과의 중간 값을 임계치로 해 양성인지 음성인지를 판단할 때 A와 B의 선형회귀분석 결과가 확연하게 차이가 나는 것 (중략) 따라서 Y 값을 확률값으로 변환하고 0과 1의 범주에 포함되는 값을 도출해 판단하는 로지스틱 회귀분석을 이용하는 것 - P162

선형회귀분석은 종속변수인 Y가 연속적으로 발생하는 값이므로 정규분포를 가정할 수 있지만, 두 개 항의 값을 취하는 로지스틱 회귀분석은 정규분포를 가정할 수 없다. - P162

대표적인 이산확률분포인 베르누이 분포 Bernoulli distribution와 푸아송 분포Poisson distribution - P163

유체역학과 관련된 베르누이의 정리 Bernoulli‘s principle는 항공 기술은 물론 지금까지도 많은 역학 분야에서 활용하고 있다. - P163

베르누이 분포는 데이터를 시험하고 관찰한 결과로, 성공과 실패의 두 가지 값(0, 1)만으로 확률분포를 표현하는 대표적인 이항분포다. 이것은 한 번의 시행으로 성공 확률 p값을 구하는 것이 핵심이다. 그리고 성공 확률 p를 구하면 실패할 확률은 자동으로 1-p가 된다. - P163

로지스틱 회귀분석은 일반적인 이항분포binomial distribution다. 베르누이 분포와 일반적인 이항분포의 차이는 결과의 성공과 실패를 단 한번의 실험과 관찰에서 얻었는지, 반복된 실험과 관찰에서 얻었는지에 있다. - P164

단 한 번의 결과를 수용하는 베르누이 분포보다는 반복적으로 수행된 일반적인 이항분포를 더 많이 활용한다. (중략) 왜 그럴까? 실험횟수에 따른 단순 결과는 이항분포이지만, 결과가 누적돼 수렴되는 값은 정규분포를 따르기 때문이다. 베르누이 분포가 중요한 이유는 이항분포의 기초가 된 이론이기 때문이다. 베르누이 분포의 활용도가 낮다고 중요도가 떨어진다고는 할 순 없다. - P164

댓글(0) 먼댓글(0) 좋아요(9)

ｌ

찜하기 ｌ

지난 포스팅의 마지막 부분에서 모수적 검정 기법과 비...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-29 18:30

https://blog.aladin.co.kr/765045244/15573187

지난 포스팅의 마지막 부분에서 모수적 검정 기법과 비모수적 검정 기법에 대해 살짝만 살펴 봤었는데, 오늘은 이에 대해 좀 더 살펴본다. 두 검정 기법에 대한 개념적인 것들은 지난번 포스팅에서 어느정도 다루었기에 오늘은 어떤 상황에 적용하는지에 대해 먼저 알아보고 이어서 뒤에 나오는 내용들로 넘어가고자 한다.

(이 책의 맨 앞에 나왔던 평균, 분산, 표준편차 그리고 귀무가설, 유의수준 정도까지는 그럭저럭 괜찮았던 거 같은데 지금 나오는 모수와 비모수 검정부터는 뭔가 조금씩 머리가 지끈지끈 해지는 느낌이 슬슬 올라온다. 이해하려고 애써 보겠지만 역시 통계라는 게 결코 호락호락하지 않음을 느낀다. 그래도 저자분께서 가급적 친절하게 설명해주시니 믿고 가봐야 겠다.)
.
.
.
이어지는 내용에서는 윌콕슨 순위합 검정과 만-위트니 검정이라는 것이 나오는데, 개인적으로 둘 다 처음보는 개념이라 생소하기는 했지만 저자께서 이해하기 쉽게 예시를 들어 설명해주셔서 낯설긴 했지만 이해하는데는 크게 무리가 없었던 것 같다.

또한 위의 두 검정에 더해 크루스칼-왈리스 검정이라는 것도 나오는데 이것은 모수적 검정에서 3개이상의 그룹을 비교분석하는 분산분석에 대응되는 비모수적 검정이라고 한다. 책에 간단한 사례가 나오는데 이 또한 초심자가 이해하기에 무난하도록 저자께서 배려를 많이 해주셔서 잘 이해할 수 있었다.

p.109, p.110에 밑줄친 내용은 데이터 분석가 혹은 과학자가 되기 위해 무엇을 공부해야 하는가에 대한 저자의 답변 중 일부이다. 여기에 더해 저자는 사람들과의 원만한 커뮤니케이션 능력을 갖추는 것의 중요성도 역설한다.
.
.
.
절을 바꿔서 이어지는 내용에서는 분류와 군집이라는 개념이 등장하는데 이 둘의 가장 핵심적인 차이는 체계가 정해져 있는가 아닌가이다. 이미 정해진 체계 혹은 기준이 있으면 분류라고 하고, 아직 정해진 체계 혹은 기준이 없을 때 새롭게 체계나 기준을 확립하고 유사한 속성끼리 그룹을 구성하는 것은 군집이라고 한다. 저자는 많은 사람들이 이 두 용어를 혼동해서 사용하고 있기에 구체적인 개념을 설명하는데 지면을 일정부분 할애한 것으로 보인다.

분류와 군집에 대한 개념 설명 이후에는 유사도 similarity 라는 것과 함께 이것을 측정하기 위한 ‘유클리드 거리‘가 소개된다. 여기 일일이 밑줄치진 않았지만 다양한 사례들을 통해 어렵지 않게 개념을 익힐 수 있었다. 추가적으로 맨해튼 유사도, 코사인 유사도 같은 개념들도 소개되어서 유사도를 측정하는 방식이 한 가지만 있지 않고 여러가지 방식이 존재함을 알 수 있었다.

모수적 검정 기법과 비모수적 검정 기법의 선택은 어느 쪽이 우월하고 어느 쪽이 정확도가 높은지가 아니라 상황에 적절한 검정 기법이 무엇인가의 문제다. - P90

일단 데이터가 적은 상황은 배제한다. 데이터 홍수의 시대에 데이터가 적은 상황은 그리 흔치 않기 때문이다. 그래서 모든 분석에 앞서 데이터가 충분히 확보된다고 가정하고 모수적 검정을 수행한다. 그렇게 해서 나온 분석 결과를 2차 데이터로 재활용해 분석하는 경우에는 이 데이터가 반드시 정규분포를 따른다고 가정할 수 없으므로 비모수적 분석을 수행한다. 그러나 1차 분석에서 관측이나 실험의 결과가 서로 다른 환경에서의 독립된 표본이라면 당연히 비모수적 검정을 수행해야 한다. - P90

서열과 부호를 기준으로 한 비모수적 검정은 수학 지식의 깊이나 특별한 통계 지식을 요구하는 경우가 적다. 또한 순위가 명확하므로 잘못된 분석 결과를 도출할 가능성이 적다. 하지만 비모수적 검정은 정규분포를 가정해 나타내지 않기 때문에 표본이 모집단을 대변한다 하기에는 부족하다. - P91

또한, 분석 대상이 정규분포를 따르지 않으면 심각한 오류를 범하게 된다고 오랫동안 믿어 왔기 때문에 비모수적 검정은 모수적 검정보다 개발된 방법론이 극히 적다. - P91

지금까지 설명한 모든 통계 검정은 모수적 검정이었다. - P91

스피어만 상관계수Spearman‘s rank correlation coefficient 또는 Spearman‘s rho는 영국의 심리학자인 찰스 스피어만 (Charles Edward Spearman, 1863~1945)이 고안한 비모수적 상관분석 기법이다. - P91

스피어만 상관분석은 두 변인(변수) 간의 순위를 부여하고 연관성을 검정하는 기법으로, 피어슨 상관분석과 같이 -1 에서 1 사이의 값(계수)을 갖는다. 보통 피어슨 상관분석을 곱적률 상관분석이라고 하며 스피어만 상관분석을 순위 상관분석이라고 한다. 간단히 표현하면 전자는 두 변인 간의 선형관계를 계수로 표현한 것이고, 후자는 변인 간의 순위를 부여한 값을 기반으로 분석을 한다. - P92

두 분석(피어슨 상관분석, 스피어만 상관분석)모두 두 변인 간의 연관성 정도를 -1에서 1까지의 값으로 표현한다는 점은 비슷하지만, 들여다 보면 약간의 차이가 있다. 단순히 모수와 비모수를 다루는 기법과 선형과 순위를 기반으로 한다는 점뿐 아니라 결괏값, 즉 상관계수에서도 그 차이를 찾을 수 있다. - P92

비례적 연관성을 검증하는 피어슨 상관계수 - P92

순위 비교를 통한 스피어만 상관계수 - P92

선형관계를 파악하는 피어슨 상관분석과 단순 순위 비교를 진행하는 스피어만 상관분석의 차이 - P93

같은 범주 내에서의 비교는 같은 환경이라 할 수 있지만, 다른 범주 간의 비교를 같은 환경이라 가정할 수 있을까? 즉, 언어 능력과 수리 능력의 상관관계가 같은 환경이라 할 수 있느냐 하는 문제다. 그래서 스피어만은 언어 능력의 순위를 정하고 다시 수리 능력의 순위를 정해 서로를 비교함으로써 상관관계가 존재하는지를 파악했다. 이것이 바로 G 요인general factor (인간이 어떠한 문제를 해결할 때 공통으로 작용하는 능력)을 발견하는 과정에서 비모수적 상관관계를 검정하는 스피어만 상관분석의 시작이었다. - P95

비모수적 검정 기법인 윌콕슨 순위합 검정wilcoxon rank sum test과 윌콕슨 부호 순위 검정wilcoxon signed rank test - P97

모수적 양측 검정 기법인 t-검정에 대응하는 비모수적 양측 검정의 하나가 윌콕슨이 정립한 순위합 검정이다. - P97

도출된 각 실험의 순위합을 비교한다. 두 실험의 결과가 비슷하면 순위합도 비슷하겠지만 결과가 서로 다르면 실험 결과가 한쪽으로 치우쳐 (중략) 두 순위합이 차이가 난다고 할 수 있다. 이것이 바로 윌콕슨 순위합 검정의 기본적인 배경이다. 물론 논리적인 전개는 단순 순위합을 비교하는 것으로 끝나지 않는다. 다만 이러한 발상으로 양측 검정이 충분히 가능함을 정립한 것은 실로 대단하다. - P99

때로는 단순함이 복잡함을 설명한다. - P99

윌콕슨의 순위합 검정은 독립된 집단의 결과를 통합해 정리하고 순위를 부여한 뒤 각각의 집단에 대한 순위합을 구해 비교하는 방식이다. - P99

순위합 검정은 아니지만 유사한 통계량을 사용하는 비모수양측 검정 기법이 있다. 바로 만-위트니 U 검정 Man-Whitney U-test, (이하 만-위트니 검정)이다. - P99

윌콕슨 순위합 검정은 전체 순위를 정하고 집단별로 순위의 합을 비교하지만, 만-위트니 검정은 두 집단의 관측값을 모두 일대일로 상대 비교한다. - P102

월콕슨 순위합은 말 그대로 순위의 총합을 구해 검정하고, 만-위트니 검정은 값들을 비교해 값이 큰 경우 해당하는 개수의 총합을 구해 검정한다. 두 기법은 비모수적 양측 검정 기법으로 관측하거나 실험한 값이 서로 다른 환경의 독립적인 결과여야 하고, 어느 쪽이 크다는 서열을 표시할 수 있어야 한다. - P103

모수적 검정에서도 확인했지만 세상에 비교 대상이 두 집단만 있는 건 아니다. 비모수적 검정에서도 2개 이상의 집단을 비교해야 하는 일은있다. t-검정을 상대할 윌콕슨 순위합 검정과 만-위트니 검정이 있다면, 분산분석을 상대하는 데는 크루스칼-왈리스 검정 Kruskal-Wallis test이 나선다. - P104

앞서 소개한 윌콕슨 순위합 검정과 만-위트니 검정, 여기서 소개할 크루스칼-왈리스 검정의 장점을 한 단어로 표현하면 ‘단순함‘이다. 관측값의 순위만으로 집단 간의 차이점을 검정한다는 사실은 대단한 발견이 아닐 수 없다. - P104

하지만 ‘복잡함‘에 대한 이해 없이 ‘단순함‘을 찾을 수는 없다 - P104

세상의 모든 아름다움은 어려운 문제의 정답을 찾는 과정에서 나온다고 한다. 단순함 역시 복잡한 문제의 정답을 찾는 과정에서 나온다. - P105

크루스칼-윌리스 검정은 일원배치 분산분석의 비모수적 검정 기법으로, 서로 독립적인 환경에서 관측된 3개 이상의 집단을 검정하는 방법이다. 크루스칼-왈리스 검정의 기본 흐름은 윌콕슨 순위합 검정과 유사하다. - P106

크루스칼-왈리스 검정은 관측된 값들의 중앙값을 기본으로 한다는 점에서 윌콕슨 순위합 검정이나 만-위트니 검정과 유사하다. - P108

데이터 분석을 하는데 가장 중요한 것은 수학도 통계 기법도 알고리즘도 아닌 비즈니스에 대한 이해다. 유통, 제조, 마케팅, 서비스 등 산업 분야의 형태를 알아야 하고, 여기에 그 회사만이 가진 특성도 알아야 한다. 이런 비즈니스 특성을 충분히 이해해야 분석 내용이 설득력을 얻게 된다. - P109

중요한 것은 어떤 경우에 어떤 기법을 써야 하는지를 아는 것이다. 그 이전에 비즈니스 환경과 데이터 분석의 기본 원리를 이해하는 게 필요하다. - P110

데이터 분석에서는 특징 또는 속성에 따른 분류와 분리, 그룹화가 매우 중요한 기법으로 쓰이고 있다. - P114

분류는 새로운 데이터를 이미 정해진 체계(속성 또는 기준)에 따라 구분해 가장 유사한 그룹에 배치하는 것을 말한다. 반면 군집은 체계 (속성 또는 기준)가 정해지지 않은 상태에서 체계를 정립하고 새 데이터를 가장 유사한(근접한) 속성끼리 묶어 그룹을 구성하는 것이다. - P115

즉, 분류란 이미 설정된 체계와 규칙 또는 조건에 따라 데이터를 분리하는 것이다. 군집은 이와는 반대로 전체 데이터를 보고 유사한 성질과 특성 또는 규칙에 따라 데이터를 묶는 작업을 의미한다. - P115

분류는 이미 개수가 정해져 있지만, 군집은 최종 개수를 사전에 알 수 없다. 그래서 분류는 정해진 기준을 대상에 ‘적용‘해 나누는 것이고, 군집은 기준을 ‘탐사‘하고 대상을 나누는 것이다. - P115

군집화는 개체 간 속성을 분석해 유사한 속성을 가진 개체끼리 묶는 행위다. 여기서 개체는 분석대상이며, 속성은 분석 대상의 특성이다. 그러면 이제 유사한 속성이 무엇인가만 남았다. 유사성, 다른 말로 유사도similarity 라고도 하는데, - P118

데이터 분석은 수학을 기반으로 한 확률이고, 수학은 수를 다루는 학문이다. 군집화 분석을 위해 유사도를 측정해야 한다면, 유사도 역시 수로 표현돼야 할 것이다. - P118

절대값은 무엇일까? 일반적으로 수가 가질 수 있는 속성 중에는 방향과 거리가 있다. 그래서 양수와 음수로 수를 표현하는 것은 방향을 나타낸다. +3은 정방향으로 3칸, -3은 역방향으로 3칸 떨어진 것이다. 즉, 0을 기준으로 정방향이든 역방향이든 모두 3칸 떨어졌단 의미다. 이 방향성을 뺀 값을 ‘거리‘라 하고, 그 값을 절대값이라고 부른다. - P119

거리는 군집과 어떤 관계가 있을까? 앞부분에서 유사도를 언급했는데, 바로 이 유사도를 측정할 때 거리가 가장 훌륭한 조력자가 된다. - P120

거리는 데이터의 속성을 파악해 분류하고 군집하는 유사도측정에 가장 많이 활용하는 기법이다. 거리를 계산하고 인접한 거리로 묶어주는 것이 군집화의 가장 기본 원리다. - P120

유사도 측정 공식 중 거리를 이용한 가장 대표적인, 우리가 학창시절 수학시간에 들어 봤음직한, 유클리드 거리 Euclidean distance - P121

유클리드 거리 계산을 쉽게 표현하면 공간상에 찍힌 두 점 사이의 거리를 계산하는 공식이다. - P122

유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식이다. 이 공식은 피타고라스의 정리와 매우 유사하다. - P123

유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있다. 이 공식은 최댓값이 정해져 있지 않아 유사도, 즉 ‘가깝다‘, ‘가깝지 않다‘의 기준을 정하기 어렵다. 실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵다. 그래서 유클리드 거리로 계산된 값이 0에서 1 사이의 값이 되게 정규화를 해야 한다. - P124

•유클리드 거리 유사도=1/(1+ Ed) - P124

계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취한다. 그러면 이 값은 0에서 1사이의 값이 나온다. 유사도 값이 1에 가까울수록 유사도가 높다고 판단할 수 있다. - P124

거리를 활용한 유사도 이외의 또 다른 방법으로 맨해튼 거리 Manhattan distance 공식이 있다. 여기서 맨해튼은 모두 아는 뉴욕의 지명이다. 유클리드 거리는 거리를 계산할 때 장애물을 고려하지 않는다. 즉, 유클리드 거리는 최단 거리라 할 수 있다. 그러나 실생활에서는 최단 거리만을 이용할 수 없다. 맨해튼은 서울, 아니 그보다 도심이 더 복잡하다. - P127

맨해튼 거리 공식은 유클리드 거리 공식보다 매우 간단하다. 맨해튼 거리는 두 좌표 값의 차이에 절대값을 취해 구한다. - P127

거리를 기반으로 한 유사도 공식만 있는 것은 아니다. 다음으로 소개할 유사도 공식은 거리가 아닌 각도에 따라 유사도를 측정한다. 코사인 유사도 cosine similarity는 삼각함수에서 나오는 코사인cosine, cos을 이용한다. - P128

피타고라스의 정리에 등장하는 삼각형은 오로지 직삼각형 (직각 삼각형)만 다룬다. 그러나 세상에는 직삼각형 외에도 많은 삼각형이 있다. 코사인은 이 직각이 아닌 일반 삼각형에 적용하는 공식이다. 코사인은 피타고라스의 정리와 유클리드 거리 공식으로 충분히 증명할 수 있다. - P128

코사인은 익히 아는 삼각함수의 하나다. 더 정확히 표현하면 코사인은 2차원 평면에서 볼 때 한 지점에서 출발한 방향을 가진 두 값(벡터)의 길이에 대한 비율을 의미한다. - P129

유사도는 0과 1 사이의 값을 수렴하므로 코사인 유사도는 두 값의 방향이 0도일 때와 90도일 때를 기준으로 한다. 따라서 두 값의 방향성이 정확히 일치하는 0도일 때 값이 1이므로 가장 유사도가 높고 각도가 늘어날수록 보다 값이 작아지며 0이 유사도가 가장 낮다고 판단한다. - P129

피어슨 상관계수 역시 유사도를 측정하는 매우 훌륭한 도구다. 그리고 뒤에서 설명할 패턴 분석에 유용한 분석 방법의하나인 연관규칙의 신뢰도와 중첩 비중에 따른 지수 활용 Inclusive index, Jaccard Index 으로도 유사도를 구할 수 있다. - P129

댓글(0) 먼댓글(0) 좋아요(9)

ｌ

찜하기 ｌ

지난번 포스팅에서 밑줄 친 마지막 부분에 뉴욕의 거리...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-28 13:54

https://blog.aladin.co.kr/765045244/15569790

지난번 포스팅에서 밑줄 친 마지막 부분에 뉴욕의 거리 체계 및 특징에 대한 얘기가 잠깐 나왔었다. 직사각형의 격자로 가로와 세로의 길이가 다르다는 것과 함께 가로로 된 길은 Street이고 세로로 된 길은 Avenue라고 지칭한다는 것 정도가 핵심내용이었다.

또한 위와는 별개로 뉴욕은 도시가 오래됨에 따라 필연적으로 발생하게 되는 문제점들을 지혜롭고 창의적인 방식으로 해결한다고 하는데 이러한 것이 가능한 이유를 p.115에 밑줄친 문장에서 찾아볼 수 있다. 여기서의 핵심은 건축물을 인간의 삶과 함께 살아 숨 쉬는 일종의 파트너로 생각한다는 것인데, 독자인 나만의 용어로 살짝 바꿔보자면 무생물인 건축물을 생물인 인간과 같이 살아 숨 쉬는 동반자적인 관계로 생각한다는 것으로 볼 수 있을 듯 하다.

저자는 뉴욕이 이러한 관점을 가지고 도시의 문제를 해결해나가기 때문에 날마다 도시가 새로워지고 있음을 지적하면서 우리나라도 이러한 관점을 좀 본받았으면 하는 바램을 드러낸다. 우리나라의 경우 건축물을 단순히 유산으로만 생각하는 경향이 있는데, 건축물을 단순히 무생물로 보는 관점에서 벗어나 살아있는 생물처럼 여기고 관리할 때 도시가 진일보할 수 있는 토대가 마련된다고 저자는 믿고 있는 듯 하다. 여기 일일이 밑줄치진 않았지만, 건축물을 죽어있는 무생물처럼 여기고 과거에 그대로 머물게 하기보다는 용도를 바꿔서 사용한 사례들이 두군데 정도 나오는데 이러한 것들을 보면서 독자인 나 또한 저자의 관점에 고개를 끄덕이지 않을 수 없었다.
.
.
.
또한 이어지는 내용에서 우리나라의 국보 1호인 남대문에 관한 얘기가 나온다. 언제인지 정확히 기억이 나진 않지만 과거에 남대문이 화재로 인해 불에 탄 적이 있다. 저자는 이 얘기와 함께 남대문이라는 것의 가치는 최초에 남대문을 만들 당시의 사람들의 생각과 개념이 중요한 것이지, 남대문이 무슨 재료로 이루어져있는지를 따지는 것은 부차적인 것이라는 얘기도 덧붙인다. 독자인 나의 관점에서는 건축가인 저자가 이렇게 말하는 게 과연 맞는 것인가 싶기도 했지만, 본질적인 의미나 관념들에 좀 더 가치를 두고 본다면 저자의 말에 일리가 있다는 생각도 해볼 수 있었다. 이 부분을 읽으면서는 문화재라는 것의 진정한 가치는 어디서 나오는 것인가에 대해 다시금 생각해볼 수 있었다.

건축가인 저자의 글을 통해 단순히 어떤 건축적인 개념같은 것들만을 배우는 것이 아닌, 세상을 바라보는 새롭고 다양한 시각들도 배우게 되는 것 같다는 느낌을 받는 순간이었다.

추가로 이어지는 내용에서 저자는 로마나 파리 같은 대도시들이 발전해온 과정을 소개하면서 이를 생명체의 진화과정에 빗대어 설명한다. 진화론의 관점에 입각하여 생명체가 순환계, 단순 신경계, 척추 신경계의 순서로 진화하듯이 도시도 이와 비슷한 단계를 거쳐 진화한다는 설명은 개인적으로 최근에 읽었던《최재천의 곤충사회》 라는 책에 나왔던 진화론의 이야기를 상기시켜주었다. 저자는 각 단계별로 도시에 수로가 생기고 하수구가 생기고 최근에는 정보통신망의 발달로 도시가 생명체 진화의 최종 단계까지 진화했음을 나를 포함한 독자들에게 아주 입체적으로 이해하기 쉽게 설명해주고 있다. 개인적으로는 읽으면서 꽤나 흥미롭게 느껴졌던 부분이었다.

뒤이어 건축의 근본적인 목적에 대한 얘기가 나오는데 여기서의 핵심은 건축이라는 것이 단지 겉으로 보여지는 구조물에 그치는 것이 아니라 사람의 삶을 디자인하기 위한 목적으로 이루어져야 한다는 것이었다. 저자는 이러한 핵심을 독자들이 이해하기 쉽도록 다양한 비유를 통해 건축에 대해 설명하고 있다.

유연한 대처가 가능한 것은 건축이나 도시를 단순히 유산으로만 생각하는 것이 아니라, 인간의 삶과 함께 살아 숨 쉬는 일종의 파트너로 생각하기 때문에 가능한 일이다. - P115

개념이 문화재로서의 중요한 가치를 만들기 때문이다. - P116

건축은 오브제(object)의 성격이 강한 도자기나 그림과는 다르다. 건축은 사람이 들어가고 나오는 공간을 가지고 있기 때문에 계속해서 재료가 교체되고 복원되고 사용되면서 보존되는 것이 옳다. - P116

남대문은 재료가 오래된 나무이기 때문에 문화재가 아니라 그 건축물을 만든 생각이 문화재인 것이고, 그 생각을 기념하기 위해서 결과물인 남대문을 문화재로 지정한 것이다. 따라서 오리지널 남대문이 불타 버린 것은 안타까운 일이지만, 오래된 나무가 불에 탔다고 통곡하면서 울 필요까지는 없을 것 같다. - P116

우리가 고건축을 하드웨어로만 보면 그냥 보존에 치중하게 되는 반면, 소프트웨어로 보면 좀 더 유연하게 이용할 수 있다. 유럽의 문화선진국은 일찍이 건축 문화재를 소프트웨어로 보고 변화된 시대에 맞게 잘 사용하면서 보존하고 있다. 그 대표적인 사례가 오르세 미술관이다. - P118

건축물은 시대를 거치면서 다르게 사용될 수 있다. 그것이 어쩌면 건축물을 더 살아 있게 만드는 것이다. - P118

더 이상 건축 문화재를 박제시켜 놓고 우상화시키지 않았으면 한다. - P118

혹자는 도시를 신의 창조물이라고 말하기도 하고, 어떤 사람들은 인간이 만들어 낸 인공물이라고도 한다. 한 가지 명확한 사실은 빌딩, 다리, 상하수도 시설, 도로 같은 도시를 구성하는 대부분의 물리적인 구조들은 사람에 의해서 만들어졌다는 점이다. 그런 면에서 도시는 인간이 만들어 낸 인공물이라고 할 수 있다. 하지만 동시에 도시는 실제로 도시설계자의 의도대로가 아니라 자연발생적인 방식에 의해서 오랜 시간에 걸쳐 진화해 왔다는 면에서 인간에 의해서 만들어졌다기보다는 자생적인 유기체라고 할 수도 있다. - P124

기계는 스스로 성장, 발전하지 않고 디자인된 초기 상태에서 노후가 되는 닫힌 시스템이다. 하지만 살아 있는 생명시스템은 모든 구성 요소들이 고정되어 있지 않고 계속해서 변화하며, 생명체의 안팎으로 끊임없이 물질들이 들어오고 나가게 되는 열린 시스템이다. - P125

살아 있는 생명 시스템은 세포를 끊임없이 없애고 새로운 물질을 외부로부터 받아들여 새로운 세포를 만들어 오래된 세포를 교체시키면서 성장한다. 생명체에 이러한 성장, 발전, 진화가 있듯이 도시에도 성장, 발전, 진화가 있다. - P125

어떠한 시스템이 살아 있는 유기체나 죽어 있는 무기체냐를 결정하는 요소는 그 조직체의 패턴이 스스로 만들어지는(Self-Marking) 네트워크냐 아니면 외부에 의해서 수동적으로 만들어진 것이냐에 달려 있다고 한다. - P125

도시는 초기 계획자의 디자인이라는 수동적인 패턴을 뛰어넘어 특정한 디자이너의 계획 없이 자생적으로 만들어지는 패턴들이 보이는데, 이 같은 자생적 패턴은 도시를 살아 있는 유기체로 보기에 충분한 증거라고 생각된다. - P125

불특정 다수의 인간이 만들어 낸 변화들이 모여서 예측 불가능한 새로운 결과물을 만들어 내는 것 - P126

"생명의 진화 속에서, 과거의 경험들은 DNA 안에 유전적인 메시지 코드로 압축 저장 되어 있다" - P128

오랜 역사를 통해서 구축된 과거 경험의 흔적이 우리가 사는 도시의 주거 형태, 도로, 광장, 학교, 대중교통 체계, 상하수도 시설 같은 인프라 구조라는 우리 도시의 DNA 속에 유전적 메시지 코드로 압축 저장되어 있다 - P128

역사적으로 도시의 패턴은 인류 사회의 초기부터 진화되어져 왔다. 현대 도시의 패턴은 지난 수천 년간 인류가 이루어 낸 사회적, 기술적, 경제적, 정치적, 문화적인 진화의 산물이다. 우리가 사는 도시의 구성 요소들은 우리 도시의 DNA이며 과거 역사가 압축된 형태의 유전자 코드인 것이다. - P128

진화론에 의하면 생명체는 순환계, 단순 신경계, 척추 신경계로 진화해 왔다. - P129

생명체의 생명 유지를 위해서 피가 필요하듯이 도시가 유지되기 위해서는 물이 기본적으로 필요하다. 이같이 피에 비유될 수 있는 물을 도시의 구석구석으로 잘 전달하기 위해서 물의 순환계가 필요하게 되었다. 이러한 필요에 잘 반응한 도시는 그 규모를 키워서 도시 간의 생태계에서 우위를 차지할 수 있었을 것이다. - P131

지금도 로마에 가면 SPQR이라는 글자가 맨홀 뚜껑에 적혀 있는데, 이는 Senatus Populus-Que Romanus의 약자로 ‘원로원과 민회‘를 뜻한다. - P131

아퀴덕트[대수로, 수도교水道橋]는 1000분의 1정도의 기울기로 된 수로 건축물로서 시골의 개울물을 로마 시내까지 전달해 준다. - P130

도시에서 상수도 시설은 유기체에서 혈관 중에서도 동맥의 형성과 의미를 같이 한다고 볼 수 있는데, 그런 면에서 고대 로마는 순환계 부문에서 가장 먼저 진화한 도시라고 할 수 있다. - P131

순환계 다음의 진화 단계인 신경계는 생명체 내에서 각기 다른 기관과 세포 간의 정보를 교환하는 것을 주요 목적으로 하고 있는데, 도시 시스템에 비유한다면 사람간의 소통을 원활하게 해 주는 교통망이 이에 해당될 수 있을 것이다. - P131

사통팔달로 뚫린 파리의 방사형 교통망은 파리를 세계에서 도시 내 커뮤니케이션이 가장 앞선 도시로 만들어 주었다. 파리는 당시(19세기)로서는 혁신적으로 하수도 설비도 되어 있었는데, 생명체에 비유한다면 혈관의 정맥 네트워크까지 완성된 도시 진화의 단계라고 볼 수 있을 것이다. - P132

생명체에서 진화의 다음 단계는 척추 신경계의 발생이다. 도시 진화적인 측면에서 척추 신경계에 비유될수 있는 것은 전화망의 구축이라고 할 수 있을 것이다. - P134

전화 통신망이 척추 신경계 진화의 첫 단계라면 다음 단계인 인터넷 통신망의 구축은 그 다음 세계 선도 도시가 될 수 있는 열쇠가 될 것이다. 양방향 커뮤니케이션의 기능이 강화된 케이블이나 인터넷의 경우는 감각신경계가 발달한 진화의 단계로 비유될 수 있을 텐데, 다행스럽게도 서울은 이러한 면에서 아주 진화된 도시 중 하나라고 할 수 있다. - P134

가장 최근의 도시 진화 단계인 무선통신망의 구축은 도시가 물리적인 구성을 넘어서 영혼, 텔레파시와 같은 영장류의 단계에 이르렀다고 볼 수 있을 것 같다. 서울은 무선인터넷이 잘 되는, 신경망이 잘 구축된 도시이다. 하지만 서울의 고질적인 교통 체증은 서울이 세계적인 도시로 부상하는 데 발목을 잡는 동맥경화와 같은 병이다. - P134

순환계와 신경계 측면의 진화에서 바라본 도시의 진화 단계는 지금 유기체 진화의 최종 단계와 유사하다고 할 수 있지만, 실제로 에너지 소비의 관점에서 진화의 정도를 살펴보면 아직도 고대 도시 수준에서 하나도 진화하지 못했다고 해도 과언이 아니다. - P135

도시라는 유기체의 생명을 유지하기 위해서 너무나도 많은 에너지가 소비되고 있다. - P135

실제로 도시가 바람직한 다음 단계로 진화하기 위해서는 실질적으로 유기적인 성격을 더 가져야 한다. 좀 더 정확하게 말한다면, 동물성이 아닌 식물성의 유기체적인 특징을 더 가져야 한다고 말해야 할 것이다. - P135

지금의 도시는 다른 생명체에 기생해서 에너지를 소비하면서 생존한다는 면에서 영화《매트릭스(Matrix, 1999)》 에서 에이전트 스미스가 말한 것처럼, 도시는 진화한 유기생명체라기보다는 생명 진화의 초기 단계인 바이러스에 더 가까운지도 모른다. - P135

화폐 속 인물을 보면 그 나라 국민들의 가치관이 드러난다. - P135

우리는 건축 자재로 건축물을 만들지만, 시간이 지나면 건축이 다시 우리의 삶과 정신과 문화를 만든다. - P138

보통 개발도상국에서 발전을 하는 가장 큰 원동력은 시골에서 도시로의 인구 이동이다. - P138

팰럼시스트[Palimpsest, 복기지(複記紙)]란 단어가 있다. 이 단어는 원래 양피지 위에 글자가 여러 겹 겹쳐서 보이는 것을 말한다. (중략) 이런 뜻의 단어가 건축에서는 오래된 역사적 흔적이 현재의 공간에 영향을 미치는 것을 은유적으로 설명할 때 사용되고 있다. - P143

과거의 기술적 한계와 오랜 시간의 역사가 현재 우리가 사는 공간을 규정하고 영향을 미치게 되는 것 - P144

역사가 깊은 도시들은 마치 여러 장의 트레이싱 페이퍼 (투사지) 그림들이 쌓여 있는 것과도 같다. 따라서 도시 디자인은 쌓여 있는 여러 장의 트레이싱 페이퍼 그림들을 한 장씩 조심스럽게 살피면서 어느 부분은 지우고 어느 부분은 살리면서 상호관계를 조절해 오늘의 이야기를 하는 그림을 만들어 가는 일이라고 할 수 있다. - P146

건축 행위들은 궁극적으로는 사람의 삶을 디자인하기 위한 것들임 - P147

연극을 할 때 우리는 시나리오를 작성하고 무대 디자이너는 그 스토리에 맞추어서 이야기를 전달하기 위해 최소한의 공간과 재료로 최적의 무대 세트를 디자인한다. 건축도 마찬가지다. - P147

건축가는 먼저 사람의 행위를 디자인해야 한다. 이것은 마치 작가가 시나리오를 먼저 쓰는 것과도 같다. 연극 시나리오 없이 무대 세트가 디자인될 수 없듯이, 건축가는사회와 삶의 모습을 그리는 시나리오가 나오기 전에는 건축물을 디자인해서는 안 된다. - P147

건축은 언제나 인간을 위한 것이었다. 하나님의 집이라는 성전조차도 결국에는 인간이 하나님을 경배하기 위한 장소이지, 하나님이 집이 없는 분이라서 지은 것은 아니다. 절이나 다른 종교 건축물들 역시 인간의 행위를 위한 장소를 제공하는 건물이다. - P147

인간이 어떠한 행위를 할 때, 그 행위에 걸맞는 환경을 연출해 주기 위해서 건축이 무대를 제공하는 것이다. 연극의 스토리는 빈약한데 무대 장치만 블록버스터급으로 해 놓으면 안 되듯, 너무 부족해도 안 되지만 너무 과해도 안 되는 것이 건축물이다. - P147

좋은 건축물은 소주가 아니라 포도주와 같다. 소주는 공장에서 화학 공식에 따라서 대량 생산되는 술이다. 소주는 생산하는 사람이나 지역의 다양성이라는 가치가 반영되지 않고, 인간과 격리된 가치를 가지는 술이다. 건축물에 비유한다면 찍어내듯이 양산되는 아파트나 지역성이 전혀 반영되지 않은 국제주의 양식에 해당한다고 할 수 있겠다. - P148

포도주는 좋은 건축물 같다. 같은 종자의 포도라도 생산되는 땅의 토양에 의해서 다른 포도가 생산되고, 같은 종자의 포도와 같은 밭이라고 하더라도 그 해의 기후에 의해서 다른 포도가 만들어지며, 똑같은 재료라고 하더라도 포도를 담그는 사람에 의해서 다른 맛이 만들어지는 것이 포도다. 따라서 하늘과 땅과 사람이 하나로 조화를 이루어서 세상에 단 한 종류밖에 없는 포도주가 완성되는 것이다. - P148

건축도 이같이 지구상에 단 하나밖에 없는 땅 위에 특별하게 주어진 프로그램에 특정한 건축가가 개입되어서 단 하나의 디자인이 나와야 한다. 지금처럼, 지역성과 건축가가 배제된 상태에서 TV 광고로 포장된 건설사의 아파트 브랜드로는 좋은 건축이 만들어질 수 없다. - P148

모든 땅은 위도가 같으면 경도가 다르고, 경도가 같으면 위도가 다르다. 그 땅의 주변 상황들을 살펴보면 하나도 같은 조건인 땅이 없다. 따라서 우리가 이 세상에 제대로 된 건축물을 짓기 위해서는 주어진 땅에 대한 이해와 그 땅 위에서 일어날 프로그램이 조심스럽게 다루어져야 한다. - P149

여러 가지 주어진 조건들이 서로 충돌하기도 하고 때로는 서로 다른 조건들이 만나서 시너지 효과를 이루기도 한다. 이러한 긴장감 도는 줄다리기의 줄 위에서 아름다운 춤을 추어야 하는 것이 건축가의 일이다. - P149

건축가는 경제, 심리, 인간 행동, 문화, 기술, 각종 사회현상 등 여러 가지 요소들 간의 상호관계를 이해해야 한다. 그리고 거미줄처럼 짜인 이들 요소들 간의 관계 망을 이용해서 아름다운 거미집을 만들어 낸다는 생각으로 작업해야 한다. - P149

슬래브(철근 콘크리트 구조의 바닥) - P149

물질이 합쳐져서 나타나는 건축‘물‘이 궁극적인 목표여서는 안 된다. 그 이후에 만들어져야 하는 아름다운 인간의 삶이 우리 건축가가 궁극적으로 바라보고 목표로 삼아야 하는 지향점이다. - P149

매스: mass. 벽체의 솔리드(solid. 비어 있는 것을 뜻하는 보이드의 반대말로, 안이 꽉 찬 ‘덩어리‘라고 보면 된다. 고체만이 아닌 액체 상태의 물질도 포함한다. 물도 솔리드인 것이다. 예를 들어 항아리의 경우 비어 있는 속은 보이드이고, 흙으로 만들어진 부분은 솔리드이다)한 존재 또는 실체로서의 존재감을 나타내기 위한 기본 요소. - P386

댓글(0) 먼댓글(0) 좋아요(7)

ｌ

찜하기 ｌ

읽고보고듣고쓰고

리스트

리뷰/페이퍼

방명록

지난번 포스팅의 후반부에 텍스트 마이닝에 대해 다뤘었...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-06-01 13:27

지난 포스팅 마지막 부분에서 로지스틱 회귀분석이 이항...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-31 16:18

지난 포스팅 중후반부에서 데이터의 속성을 파악해 분류...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-30 18:07

지난 포스팅의 마지막 부분에서 모수적 검정 기법과 비...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-29 18:30

지난번 포스팅에서 밑줄 친 마지막 부분에 뉴욕의 거리...ｌ리뷰/페이퍼

즐라탄이즐라탄탄 () l 2024-05-28 13:54

서재지수 : 109434점

오늘의 마이리스트

최근 댓글

먼댓글 (트랙백)