데이터 분석의 절차
① 분석 목표 설정
- 실행 가능성과 활용 가능성을 고려해서 결정
② 데이터 수집
- 직접 수집한 데이터와 내부 데이터 및 관련 있는 외부 데이터를 활용
- 출처에 따라 내부 데이터 그리고 외부 데이터로 나눔
- 내부 데이터:
- 내부 데이터는 기업이 보유하고 있는 영업 데이터와 고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이 보유하고 있는 데이터
- 외부로 데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는 데이터를 뜻함.
- 외부 데이터:
- 내부 데이터의 반대 개념으로 인터넷에서 접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은 데이터
- 공공 데이터
- 공공 데이터 포털 : https://www.data.go.kr(다양한 공공기관의 데이터 및 api르 제공)
- 통계청 MDIS : https://mdis.kostat.go.kr/index.do
- 민간 데이터
- Kaggle : https://www.kaggle.com(다양한 기업의 실제 데이터와 분석 사례를 확인 가능
- 네이버 데이터랩 : https://datalab.naver.com(네이버 관련 정보 제공)
③ 데이터 가공
탐색적 데이터 분석(EDA: Exploratory Data Analysis)
- 쌓여있는 데이터로 부터 통찰을 얻는 가설검증을 해 데이터를 분석하는 방식.
- 데이터 구조와 특징을 파악하며 얻은 정보를 바탕으로 통계모형을 만드는 단계
- 변수, 변수의 관계 등 데이터 자체의 특성을 확인하기 위한 분석
- 간단한 기술 통계량 계산과 다양한 그래프를 활용 -> 데이터를 이해하기 쉽게 하기 위해
- 모든 데이터 분석의 시작 단계에서 필수적인 과정
- 빅데이터 분석에 사용.
- 단점: 명확한 분석목표가 없으면 방활할 가능성이 높음.
확증적 데이터 분석(CDA: Confimatory Data Analysis)
- 목적을 가지고 데이터를 확보하여 분석하는 방식.
- 미리 설정한 가설을 확인하기 위한 분석.
- 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석 방법.
- 추정(estimation)과 검정(test)을 주로 사용.
- 주로 조사, 논문에 대한 내용을 입증하는데 많이 사용.
- 단점: 선입견이 개입되어 예상치 못한 결과가 나올 수 있음.
데이터 분석으로 통찰을 얻는다
Part1. 공공데이터 분석의 개념 | 앞의 글에서 '분석'과 '데이터'를 이야기하였다. 이번 글에서는 그 둘을 합친 '데이터 분석'을 이야기 한다. 패턴을 찾고 통찰을 얻는다 데이터 분석은, 데이터
brunch.co.kr
더 정확한 예시가 나와 있으니 확인하기 바랍니다. 출처: https://brunch.co.kr/@data/8 [brunch]
④ 분석의 반복과 피드백
- 동일한 분석을 반복하여 결과의 재현 확인(표본평균분포의 평균)
- 피드백을 통해 분석 목표및 데이터 처리, 분석 방법 수정 고려
- 분석의 정교화 및 모형의 고도화
⑤ 분석결과 공유
- 분석과 분석 결과의 요약
- 전체 부석 과정이 아닌 분석의 흐름을 이해할 수 있는 수준으로 요약
- 효과적인 정보전달을 위한 그래프(시각화) 활용 필요
출처: https://blog.altair.co.kr/69196 [ALTAIR]
데이터 분석 목표의 종류
- 연구와 데이터 분석: 확증적 데이터 분석
- 분석 목표를 먼저 설정
- 실험, 설문 등을 통해 데이터를 수집
ex) 설문: "사람들은 어떤 커피 전문점을 좋아 할까?
성분실험: "사람들이 좋아하는 커피 맛은 따로 있을까?
- 비즈니스와 데이터 분석: 탐색적 데이터 분석
- 기업활동에서 쌓인 데이터를 활용
Ex) 어떤 커피 전문점의 커피 주문, 고객 데이터를 활용. - 데이터로 분석 가능한 적절한 분석 목표를 설정.
Ex) 어떤 사람들이 언제, 어떤 커피를 주문할 지 예측
- 기업활동에서 쌓인 데이터를 활용
- 경계가 모호한 다양한 데이터 분석
- 일반적으로 명확한 구분은 어려움
Ex)
건강보험공단 진료내역 정보를 활용한 질환 발병 연구(설문조사가 아닌 국가에서 제공하는 데이터)
마케팅 반응률 측정을 위한 AB테스트(기업에서 내부데이터가 아닌 외부 데이터)
- 일반적으로 명확한 구분은 어려움
데이터 인식과 분석을 위한 데이터의 형태 변환
- 부분 데이터 선택: 관심있는 관측치와 변수를 선택.
- 전체 구매내역이 아닌 주말 구매내역만 선택.
- 변수 결합,분해 및 파생변수 생성: 기존변수를 더 활용하기 좋은 형태로 변환.
- 고객의 연령 대신 연령대 변수를 활용.
'데이터 분석' 카테고리의 다른 글
데이터 처리를 위한 Matplotlib (0) | 2022.06.17 |
---|---|
데이터 처리를 위한 numpy (0) | 2022.06.17 |
데이터 처리를 위한 Pandas (0) | 2022.06.17 |
데이터 분석의 기초1(데이터 종류) (0) | 2022.05.31 |