본문 바로가기
  • 🦄 창민이 개발일지
데이터 분석

데이터 분석의 기초2(데이터분석 절차와 데이터 가공)

by 창민이 개발일지 2022. 5. 31.

데이터 분석의 절차

① 분석 목표 설정

  • 실행 가능성과 활용 가능성을 고려해서 결정

② 데이터 수집

  • 직접 수집한 데이터와 내부 데이터 및 관련 있는 외부 데이터를 활용
  • 출처에 따라 내부 데이터 그리고 외부 데이터로 나눔 
  • 내부 데이터:
    • 내부 데이터는 기업이 보유하고 있는 영업 데이터와 고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이 보유하고 있는 데이터
    • 외부로 데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는 데이터를 뜻함.
  • 외부 데이터:
    • 내부 데이터의 반대 개념으로 인터넷에서 접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은 데이터
    • 공공 데이터 
    • 민간 데이터 

③ 데이터 가공

출처: https://www.insilicogen.com/blog/361  [ACOBLOG]

탐색적 데이터 분석(EDA: Exploratory Data Analysis)

  • 쌓여있는 데이터로 부터 통찰을 얻는 가설검증을 해 데이터를 분석하는 방식.
  • 데이터 구조와 특징을 파악하며 얻은 정보를 바탕으로 통계모형을 만드는 단계
  • 변수, 변수의 관계 등 데이터 자체의 특성을 확인하기 위한 분석
  • 간단한 기술 통계량 계산과 다양한 그래프를 활용 -> 데이터를 이해하기 쉽게 하기 위해
  • 모든 데이터 분석의 시작 단계에서 필수적인 과정
  • 빅데이터 분석에 사용.
  • 단점: 명확한 분석목표가 없으면 방활할 가능성이 높음.

확증적 데이터 분석(CDA: Confimatory Data Analysis)

  • 목적을 가지고 데이터를 확보하여 분석하는 방식.
  • 미리 설정한 가설을 확인하기 위한 분석.
  • 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 하는 분석 방법.
  • 추정(estimation) 검정(test)을 주로 사용.
  • 주로 조사, 논문에 대한 내용을 입증하는데 많이 사용.
  • 단점: 선입견이 개입되어 예상치 못한 결과가 나올 수 있음.
 

데이터 분석으로 통찰을 얻는다

Part1. 공공데이터 분석의 개념 | 앞의 글에서 '분석'과 '데이터'를 이야기하였다. 이번 글에서는 그 둘을  합친  '데이터 분석'을 이야기 한다. 패턴을 찾고 통찰을 얻는다 데이터 분석은, 데이터

brunch.co.kr

더 정확한 예시가 나와 있으니 확인하기 바랍니다. 출처: https://brunch.co.kr/@data/8 [brunch]

④ 분석의 반복과 피드백

  • 동일한 분석을 반복하여 결과의 재현 확인(표본평균분포의 평균)
  • 피드백을 통해 분석 목표및 데이터 처리, 분석 방법 수정 고려
  • 분석의 정교화 및 모형의 고도화

⑤ 분석결과 공유

  • 분석과 분석 결과의 요약
    • 전체 부석 과정이 아닌 분석의 흐름을 이해할 수 있는 수준으로 요약
    • 효과적인 정보전달을 위한 그래프(시각화) 활용 필요
      출처: https://blog.altair.co.kr/69196 [ALTAIR]

 

 

데이터 분석 목표의 종류

  • 연구와 데이터 분석: 확증적 데이터 분석
    • 분석 목표를 먼저 설정
    • 실험, 설문 등을 통해 데이터를 수집
      ex) 설문: "사람들은 어떤 커피 전문점을 좋아 할까?
            성분실험: "사람들이 좋아하는 커피 맛은 따로 있을까?
  • 비즈니스와 데이터 분석: 탐색적 데이터 분석
    • 기업활동에서 쌓인 데이터를 활용
      Ex) 어떤 커피 전문점의 커피 주문, 고객 데이터를 활용.
    • 데이터로 분석 가능한 적절한 분석 목표를 설정. 
      Ex) 어떤 사람들이 언제, 어떤 커피를 주문할 지 예측
  • 경계가 모호한 다양한 데이터 분석
    • 일반적으로 명확한 구분은 어려움
      Ex)
      건강보험공단 진료내역 정보를 활용한 질환 발병 연구(설문조사가 아닌 국가에서 제공하는 데이터)
      마케팅 반응률 측정을 위한 AB테스트(기업에서 내부데이터가 아닌 외부 데이터)

데이터 인식과 분석을 위한 데이터의 형태 변환

  • 부분 데이터 선택: 관심있는 관측치와 변수를 선택.
    • 전체 구매내역이 아닌 주말 구매내역만 선택.
  • 변수 결합,분해 및 파생변수 생성: 기존변수를 더 활용하기 좋은 형태로 변환.
    • 고객의 연령 대신 연령대 변수를 활용.