데이터 분석의 가장 기본은 데이터를 특성에 따라 분리하는 것이다 - P131
유사도로도 데이터를 분류하고 특성에 따라 구분할 수 있다. - P132
유사도로 표현할 수 있는 군집화 데이터 분석 기법 - P132
K-최근접 이웃 알고리즘 k-nearest neighbors algorithm, (이하 k-NN)는 이렇게 데이터 속성을 파악해 가장 가까운 이웃을 묶는 데이터 분석 기법이다. - P133
k-NN을 간단히 설명하면 이렇다. 기존 데이터 집단이 있다. 이 데이터 집단을 특정 기준에 따라 분류하고 분류한 집단마다 명패를 부여한다. 새로운 데이터는 분류된 집단에서 가장 인접한 집단에 배치한다. - P133
k-평균 군집화k-means clustering, (이하 k-means) 기법은 거리를 통해 새로운 데이터를 분리된 군집에 추가하는 점에서는 K-최근접 이웃 알고리즘과 유사하지만 몇 가지 다른 특징이 있다. - P135
k-means는 n개의 데이터를 k개의 군집으로 분리해 경계선을 작성한다. 여기서 보듯이 k-means에서 ‘k‘는 군집의 개수다. 이렇게 분리된 각 군집의 평균 거리를 계산 (중심값)하고 군집별 중심값과 비교해 거리가 가장 가까운 것을 선택한다. - P135
만약 새로운 데이터가 k-1 군집에 포함되면 해당 k-1 군집은 평균 거리를 다시 계산해 새로운 중심값을 도출한다. 따라서 새로운 데이터가 들어올 때마다 군집의 모양이 변하고 경계선이 새롭게 작성된다. 새로운 데이터가 들어온 k-1 군집은 타 군집과 중심값을 다시 비교해야 한다. 중심값의 변화가 가장 적고 경계선의 이동이 없을 때까지 앞의 과정을 반복한다. - P136
k-NN, k-means 모두 핵심은 정확한 거리 계산이다. 두 기법은 거리 계산에 대한 명확한 기준만 설정된다면 개념이 복잡하지 않으며 구현이 쉽다는 장점이 있다. 이런 이유로 k-means 기법은 데이터 분석에서 군집화에 매우 폭넓게 활용되고 있다. - P137
자고로 빅데이터 전문가라면 자원관리, 기술관리, 분석 능력 등이 두루겸비 돼야 하는데 - P138
빅데이터 분야는 기술과 자원, 분석 인력이 적절한 조화를 이루어야 그 힘을 충분히 발휘할 수 있다. 그래도 굳이 담당자를 한 사람 채용해야 한다면 비즈니스 이해력이 뛰어나고 분석 결과를 올바르게 해석할 수 있는 해박한 지식이 있는 사람을 뽑는 것이 낫다. 그게 아니라면 그냥 훌륭한 업체 찾아서 좋은 파트너십을 유지하자. 단, 그들이 가진 분석 기술만큼 비즈니스에 대한 이해도 높은 파트너로 말이다. - P138
빅데이터를 활용한 기업의 가치와 미래에 대비하기를 원한다면 충분한 투자가 있어야 한다. 빅데이터를 통한 기업의 가치 상승은 투자다. - P138
미래는 언제나 준비된 자에게 기회를 준다. - P139
과거 데이터의 흐름은 장·단기적인 예측이 가능하다 - P142
어쩌면 데이터 분석은 수요 예측과 같은 명확한 예측 값만을 요구하는 것이 아닐지도 모른다. 방향성, 대상, 목표, 규모, 전략 수립 등 모든 통찰insight을 원하는 행위가 더 나은 내일을 위한 것이라면 데이터 분석은 예측foresight 이 전부라 할 수 있다. - P143
더욱이 하루가 다르게 쌓여가는 데이터를 통해, 요즈음 밸류러시 시기를 보내는 우리에게는 더욱 정교한 예측 값이 기다리고 있지 않을까? 그래서 그리 멀지 않은 미래에 산유국이 아닌 산료국이 세상을 움직이는 동력이 될 것이라 믿는다(실제로 미국의 IT 조사 기관 가트너는 데이터를 21세기의 원유라 정의했다). - P143
데이터로 미래를 예측할 때 (예측분뿐 아니라 모든 데이터 분석을 포괄해)는 두 가지 전제가 명확해야 한다. 첫 번째는 배경에서 설명했듯이 그 대상이 명확해야 한다. 단순히 어떤 데이터를 활용할 것인가의 문제만이 아니라 어떤 목적을 위해, 도출된 결과를 어떻게 활용한다는 것까지 고민해야 한다. 그리고 두 번째는 어떤 분석 기법을 활용해 문제를 해결할 것인가를 명확히 하는 것이다. - P144
정성은 상태 표현, 정량은 수치 표현이다. 정량과 정성은 분석 자료와 과정이 주관적인지 객관적인지에 따라 구분되는 것이다. - P145
조사는 정성적으로 하되 결과는 정량적으로 처리하는 것이 현명하다 - P145
정성적 예측 기법에는 전문가의 의견을 수렴하는 델파이 기법과 각계각층의 이해관계자로부터 공개적으로 의견을 수렴하는 패널 조사법Panel analysis, 직접 시장 상황을 파악하는 시장 조사법 market research 등이있다. 가끔 뉴스 등에서 전문가 의견을 듣고 향후 전망을 이야기하는게 바로 정성적 예측 기법이다. - P146
정성적 예측은 전략을 세우거나 장기적 관점에서 발전 방향을 수립할 때 많이 활용한다. 신문이나 관련 서적 등으로 동향을 파악하고 전략을 세우는 과정 역시 정성적이라 볼 수 있다. 하지만 정성적 예측은 정량적 분석보다 상대적으로 시간과 비용이 많이 든다는 단점이 있다. - P146
시계열時系列, time series을 문자 그대로 풀이하면 시간을 묶어 나열하는 것을 의미한다. - P147
시계열의 의미를 재해석하면 ‘시간의 흐름에 따라 데이터를 나열한 것‘으로 바꿔 말할 수 있다. 좀 더 정확히 말하면 과거 데이터를 일정한 시간으로 구분해 데이터를 분리하고 순차적으로 나열해 놓은 상태를 의미한다. - P147
시계열 분석을 통한 예측은 과거 흐름이 미래 흐름과 크게 다르지 않을 것이라는 전제하에 오롯이 과거 데이터만을 활용한다. 따라서 자료를 수집하거나 조사하는 시간이 다른 예측 기법보다 상대적으로 적다. 또한 복잡한 분석 기법이 아니어도 충분히 예측할 수 있다. - P147
시계열 분석의 핵심은 시간을 어떤 수준으로 연결해 묶을 것인지의 판단이다. 이것은 과거의 흐름을 패턴화하는 작업이다. 일정한 간격으로 나뉜 시계열 데이터는 몇 가지 특성화된 패턴을 가지고 있다. - P147
가장 보편적인 시계열 예측 기법으로는 이동평균법과 지수평활법이 있다. 이밖에도 회귀분석과 유사한 추세분석법, 앞서 소개된 네가지 특성(경향, 순환, 계절, 우연)에 따라 시계열 데이터를 분해해서 세밀하게 관찰하는 시계열분해법이 있다. - P148
이동평균법은 가장 구현이 쉽고 보편적으로 누구나 이용할 수 있다. 이 시계열 예측 기법은 앞서 설명한 네 가지 특성의 변화가 적어 과거 데이터의 변화폭이 적고 일정하게 유지될 때 사용하면 유리하다. 시계열 데이터를 일정 구간으로 나누어 정리하고 각 구간의 평균을 구해 다음 차수의 예측치를 구한다. 따라서 단기 예측에 많이 활용한다. - P148
이동평균법에는 이처럼 구간 평균으로 다음 차수를 예측하는 단순이동평균과 예측하고자 하는 차수의 바로 직전 데이터가 가장 많은 영향을 준다 가정하고 가중치를 부여해 그 합을 구하는 가중이동평균이있다. - P149
이동평균법은 손쉽게 예측 가능하나 네 가지 특성(경향, 순환, 계절, 우연)을 그다지 고려하지 않기 때문에 전 과장의 매출 데이터처럼 변동이 심하면 적합하지가 않다. 그래서 이동평균법의 예측 정확도를 높이기 위해 시계열분해법을 접목해 사용하는 경우가 많다. - P149
시계열분해법은 시계열 데이터의 네 가지 특성에 따라 시계열 데이터를 분해해 특성별 지수를 산출하고 이를 이동평균법 등에서 산출한 예측치에 대입해 더욱 정교한 값을 구한다. - P149
시간 흐름이 미래 예측치에 어떤 영향을 주는지를 파악해 분석하는 추세분석법은 인과분석인 회귀분석과 같다. 두 예측 기법의 차이라면 회귀분석은 특정 요인을 독립변수 (영향 요인)로 하고 결과를 예측하지만, 추세분석은 독립변수로 오로지 시간의 흐름을 반영해 결과를 도출한다는 점이다. 즉, 단순 회귀분석을 수행하는 과정과 같으나 독립변수가 시간이 된다. 추세분석법 역시 시계열분해법으로 구한 특성별 지수를 반영해 예측을 더 정교하게 할 수 있다. - P150
지수평활법은 가중이동평균과 비슷하게 가중치를 부여해 미래를 예측하는 기법이다. 이동평균법과 마찬가지로 단기 예측에 유리하며 네 가지 특성의 변화가 적을 때 이용할 수 있다. 지수평활법은 가중이동평균법에서 최근 데이터가 가장 많은 영향을 줄 것으로 판단하는 것처럼 평활상수라는 값을 구한다. 평활상수를 구할 때는 예측치와 실측치의 오차를 이용한 방법을 가장 많이 사용한다. - P150
시계열 분석을 알아봤다. 중요한 것은 시간에 따라 누적된 과거 데이터를 활용해 미래를 예측하는 기법에 어떤 것이 있는지를알고 예측이 가능함을 인지하는 것이다. - P150
회귀분석은 인과관계를 파악해 연속형 변수 간의 적합도를 함수식으로 구하는 대표적인 예측 기법이다. 회귀분석은 상관관계는 기본이고 영향을 주는 독립변수와 영향을 받는 종속변수가 반드시 있어야 한다. 다시 말해 회귀분석은 독립변수가 변함에 따라 종속변수가 어떤 변화를 보이는지를 설명하는 모형이다. - P153
종속변수를 결과로 본다면 결과에 영향을 주는 요인인 독립변수의 개수에 따라 단순회귀분석 simple regression analysis과 다중회귀분석 multiple regression analysis으로 구분한다. - P153
데이터 분포를 직선으로 연결하고 이를 추정해 구한 절편 와 기울기 b를 회귀계수라 부른다. 데이터의 상관관계를 선으로 연결해 함수식을 추정하는 회귀분석은 선형회귀분석linear regression analysis 이라 한다. 선형회귀분석도 독립변수의 개수에 따라 하나면 단순선형회귀분석simple linear regresion analysis 2개 이상이면 다중선형회귀분석multiple linear regression analysis이라 한다. - P156
시간과 공간의 가치창출 - 로지스틱 회귀분석 - P157
로지스틱 회귀분석은 회귀모델 중에서도 많은 분야에서 활용되는 이진 확률모델이다. 전형적인 범주형 모델로 결과의 가능성을 진단해 예측하는 대표적인 데이터 분석 기법이다. - P157
로지스틱logistic은 물류를 의미한다. 물류物流는 한자 그대로 물건의 흐름이다. 데이터 분석에서 물건은 데이터이므로 물류는 데이터의 흐름이라고 생각할 수 있다. - P158
물류라고 하면 가장 먼저 떠오르는 단어는 창고다. 물류창고에 가본 사람은 알 것이다. 그곳에는 특정한 기준에 따라 여러 물건을 분류해 저장한다. 즉, 로지스틱 회귀분석은 회귀분석을 통해 데이터를 분류하는 분석 기법이라 할 수 있다. - P158
로지스틱 회귀분석은 회귀분석을 수행한 결과를 기준에 따라 분류해 범주에 포함한다. 회귀분석에서 결과는 곧 영향을 받는 종속변수다. 따라서 로지스틱 회귀분석의 결과, 즉 종속변수는 범주형이라는 결론에 도달할 수 있다. 범주에 넣으려면 데이터를 기준에 따라 분류해야 하는데, 이 기준을 데이터 분석에서는 척도尺度, scale라고 한다. - P159
로지스틱 회귀분석에서 취하는 범주형 종속변수의 대표적인 척도는 참과 거짓을 구분하는 이산형(명목척도)변수다. - P160
선형회귀분석으로 구하는 종속변수 Y 값을 확률값으로 바꾸고(이 과정이 로지스틱 회귀분석의 핵심) 임의로 설정한 기준 값(임계치), 예를 들어 0.5 라고 가정했을 때 Y의 확률값이 0.5보다 크면 양성종양, 0.5보다 작으면 음성종양으로 구분하는 것이다. - P161
결과의 중간 값을 임계치로 해 양성인지 음성인지를 판단할 때 A와 B의 선형회귀분석 결과가 확연하게 차이가 나는 것 (중략) 따라서 Y 값을 확률값으로 변환하고 0과 1의 범주에 포함되는 값을 도출해 판단하는 로지스틱 회귀분석을 이용하는 것 - P162
선형회귀분석은 종속변수인 Y가 연속적으로 발생하는 값이므로 정규분포를 가정할 수 있지만, 두 개 항의 값을 취하는 로지스틱 회귀분석은 정규분포를 가정할 수 없다. - P162
대표적인 이산확률분포인 베르누이 분포 Bernoulli distribution와 푸아송 분포Poisson distribution - P163
유체역학과 관련된 베르누이의 정리 Bernoulli‘s principle는 항공 기술은 물론 지금까지도 많은 역학 분야에서 활용하고 있다. - P163
베르누이 분포는 데이터를 시험하고 관찰한 결과로, 성공과 실패의 두 가지 값(0, 1)만으로 확률분포를 표현하는 대표적인 이항분포다. 이것은 한 번의 시행으로 성공 확률 p값을 구하는 것이 핵심이다. 그리고 성공 확률 p를 구하면 실패할 확률은 자동으로 1-p가 된다. - P163
로지스틱 회귀분석은 일반적인 이항분포binomial distribution다. 베르누이 분포와 일반적인 이항분포의 차이는 결과의 성공과 실패를 단 한번의 실험과 관찰에서 얻었는지, 반복된 실험과 관찰에서 얻었는지에 있다. - P164
단 한 번의 결과를 수용하는 베르누이 분포보다는 반복적으로 수행된 일반적인 이항분포를 더 많이 활용한다. (중략) 왜 그럴까? 실험횟수에 따른 단순 결과는 이항분포이지만, 결과가 누적돼 수렴되는 값은 정규분포를 따르기 때문이다. 베르누이 분포가 중요한 이유는 이항분포의 기초가 된 이론이기 때문이다. 베르누이 분포의 활용도가 낮다고 중요도가 떨어진다고는 할 순 없다. - P164
|