그림으로 배우는 데이터 과학
히사노 료헤이.키와키 타이치 지음, 김성훈 옮김 / 영진.com(영진닷컴) / 2019년 5월
평점 :
장바구니담기


데이터 과학자란 컴퓨팅 기술을 활용해 데이터 수집 및 처리, 통계학이나 머신러닝으로 분석, 의사 결정과 상품 개발까지 이어지는 일련의 흐름을 효과적으로 처리하는 기술을 가진 사람을 말한다. 데이터 과학자에게 필요한 지식과 기술은 수학, 알고리즘, 하드웨어 지식, 소프트웨어 지식, 통계학, 머신러닝, 비지니스, 과제 응용력 등 다양한 분야에 걸쳐 있다.


데이터 과학은 먼저 무엇을 할 것인지 가설을 수립하고 데이터를 수집한다. 그리고 필요한 지식과 요소 기술을 조합해 데이터 분석을 한다. 피드백 정보를 바탕으로 개선하며 원하는 결과가 나올 때까지 PDCA주기를 반복한다. 데이터를 수집하는 방법에는 크게 세 가지로 나눌 수 있는데 1) 공개 데이터, 2) 오픈 API, 3) 웹 콘텐츠(웹 크롤링 또는 웹 스크레이핑)가 있다.


댓글(0) 먼댓글(0) 좋아요(10)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
Do it! 데이터 분석을 위한 판다스 입문 Do it! 시리즈
다니엘 첸 지음, 김영하 옮김 / 이지스퍼블리싱 / 2018년 10월
평점 :
구판절판


일주일간 학습하여 판다스를 학습할 수 있는 서적이다. 아나콘다를 설치하고 주피터 노트북으로 실습을 진행한다.


판다스의 기본적인 기능을 살펴보고 데이터 프레임에 관해 실습하고 matplotlib 라이브러리와 seaborn 라이브러리로 그래프 그리기를 진행한다. 그리고 나서 데이터에 관해 집중적으로 다루는데 데이터를 연결하고 누락값을 처리하고 클린 데이터를 만들기 위한 기법들을 소개한다. 마지막으로 판다스 자료형을 다루고 문자열 처리하는 방법과 apply 메서드를 활용하는 법을 배운다.


Do it! 시리즈는 알고 싶은 기술에 대해 실습하며 빠르게 배울 수 있는 장점이 있어서 좋다.



댓글(0) 먼댓글(0) 좋아요(7)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
가볍게 떠먹는 데이터 분석 프로젝트 - 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정
윤영진.황재진 지음 / 제이펍 / 2021년 11월
평점 :
장바구니담기


이론적인 설명과 실무적인 배경이 균형 있게 잘 정리되었습니다. 챕터마다 담겨있는 유용한 정보들이 데이터 분석을 이해하는데 도움이 되었습니다.

댓글(0) 먼댓글(0) 좋아요(12)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
가볍게 떠먹는 데이터 분석 프로젝트 - 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정
윤영진.황재진 지음 / 제이펍 / 2021년 11월
평점 :
장바구니담기


데이터 분석으로 데이터에 담긴 필요한 정보를 얻어 합리적인 판단과 올바른 의사결정을 지원한다. 데이터 분석 프로젝트란 데이터를 분석하여 개인 또는 조직이 원하는 결과를 얻기 위한 일련의 과정을 말한다. 아마존은 고객 경험을 이해하고 개선하기 위해 과거의 경험과 본능에 의존하지 않고 데이터를 적극적으로 활용하였다.


데이터 분석을 수행하기 위해서는 비용과 시간이 소요된다. 데이터에는 실수와 오류가 발생할 수 있기 때문에 그것을 보정하거나 정정하지 않으면 결과값을 신뢰하기 어렵고 프로젝트의 실패로 이어지기 쉽다. 데이터 분석 프로젝트를 체계적으로 관리하면 지식과 경험을 자원으로 축적할 수 있고 개인이나 조직의 분석 역량을 강화할 수 있다. 마케팅, 유통, 제조 분야에서 데이터를 실무로 활용한다.


데이터 분석 프로젝트를 진행하기 위해서 필요한 것들이 있다. 데이터 프로젝트를 책임지는 핵심 인력이나 조직이 따로 구성되어야 한다. 데이터 분석을 진행하기 위해 프로세스가 마련되어야 한다. 데이터 분석을 위한 분석 도구와 시각화 도구를 활용할 수 있는 기술을 갖추어야 한다. 데이터 분석에 앞서 데이터를 체계적으로 잘 축적하여 관리하고 있는지와 축적한 데이터를 어떻게 활용하고 있는지를 확인해야 한다. 


데이터 분석 프로젝트의 6단계 절차

1. 목표 이해 - 환경 이해, 정보 수집, 기대치 설정, 결과물 정의

2. 계획 세우기 - 고려 사항 확인, 일정 계획 수립

3. 데이터 수집 및 전처리 - 사용 가능한 다양한 데이터 확보, 분석 가능한 상태로 처리

4. 데이터 분석 - 설명 분석, 진단 분석, 예측 분석, 처방 분석

5. 검증 및 평가 - 분석 결과 객관적인 검증, 분석 결과 및 프로세스 평가

6. 시각화 및 발표 - 효과적인 정보 표현, 스토리텔링 결합, 의사결정 메시지 전달



댓글(0) 먼댓글(0) 좋아요(13)
좋아요
북마크하기찜하기 thankstoThanksTo
 
 
 
데이터 모델링 실전처럼 시작하기 - 데이터 전문가가 되는 첫걸음 데이터 전문가가 되는 방법
박종원 지음 / 세나북스 / 2021년 7월
평점 :
장바구니담기


이 책은 비디오 렌털 업무와 대학 학사 업무를 모델링 하는 과정을 보여준다. 1장은 데이터 모델링 개요에 대해, 2장은 데이터 모델링의 과정을 설명하고, 3장은 논리 데이터 모델링을 4장은 물리 데이터 모델링을 설명한다.


비디오 렌털과 대학 학사 모델링은 교육과정에서나 다른 모델링 교재를 통해 수차례 반복했다. 30년 IT 경력의 저자가 다시 비디오 렌털과 대학 학사를 다시 반복하고 있어 식상한 면이 있지만 단계별로 하나씩 풀어가면서 진행하고 있어 학습에는 도움이 된다.


데이터 모델링은 현실 세계의 업무를 설계하는 과정을 말한다. 업무를 효율적으로 처리하기 위한 데이터의 구조를 설계하는 과정이다. 데이터 모델링을 통해 엔터티, 엔터티 간의 관계, 엔터티의 속성이 도출된다.


엔터티(Entity)란 업무 활동상 지속적인 관심을 가지고 있어야 하는 대상으로 그 대상에 대한 데이터를 저장할 수 있고 대상들 간의 동질성을 지닌 개체 또는 행위의 집합을 말한다. 엔터티로 관리하고자 하는 것이 무엇인지를 명확히 정의해야 한다. 다양한 경로를 통해 엔터티 후보를 수집하고 수집된 자료를 분석과 검토를 통해서 엔터티 후보로 선정한다.


식별자(Unique Identifier)란 엔터티 내 특정 건을 다른 것과 구별할 수 있도록 식별해 주는 하나 이상의 속성과 관계의 조합을 말한다. 모든 엔터티는 식별자를 가져야 한다.


관계(Relationship)란 하나 또는 두 개의 엔터티를 연관시키는 업무와 관련된 중요한 사항이다. 관계의 표현은 먼저 식별성을 검토하고 차수와 선택성을 검토하여 설정한다. 식별성은 식별 관계인지 비식별 관계인지 구분하는 것이고 선택성은 필수인지 선택인지 구분하는 것이다.


속성(Attribute)이란 특정한 개체의 본질을 이루는 고유한 특성이나 성질로써 관리하고자 하는 하는 상세 항목이다. 속성은 엔터티에서 관리되는 정보 항목으로 더 이상 분리될 수 없는 최소의 데이터 단위이다.


댓글(0) 먼댓글(0) 좋아요(11)
좋아요
북마크하기찜하기 thankstoThanksTo