본문 바로가기
  • 🦄 창민이 개발일지

데이터 분석5

데이터 처리를 위한 Matplotlib 데이터 처리를 위한 Matplotlib import matplotlib.pyplot as plt ▣ Matplotlib Matplotlib은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용 마커 데이터 위치를 나타내는 기호를 마커(marker)라고 한다. 마커의 종류는 다음과 같다. 추가 마커: https://matplotlib.org/stable/api/markers_api.html 선 스타일 선 스타일에는 실선(solid), 대시선(dashed), 점선(dotted), 대시-점선(dash-dit) 이 있다. 지정 문자열은 .. 2022. 6. 17.
데이터 처리를 위한 numpy 데이터 처리를 위한 numpy ▣ Numpy 넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지입니다. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용됩니다. Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다는 장점이 있습니다. 인공지능 관련 라이브러리는 거의 numpy과 관련되서 반환한다. In [4]: import numpy as np array 리스트를 numpy배열(ndarray)로 생성 In [5]: ndarray = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]]) 1) numpy 배열 arrange np.arange()는 지정해준 범위에 대해서.. 2022. 6. 17.
데이터 처리를 위한 Pandas 데이터 처리를 위한 Pandas In [1]: import pandas as pd ▣ Pandas 판다스(Pandas)는 관계형 또는 분류된 데이터 처리를 위한 파이썬 라이브러리. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리. Pandas는 행 및 열 레이블이 포함된 데이터 처리에 적합함. ex) 주식데이터, 년도별 사망자수 등 Series 1차원 배열의 값(value)에 각 값에 대응되는 인덱스(index)을 부여할 수 있는 구조. In [3]: sr = pd.Series([17000, 18000, 5000],index=['피자','치킨','맥주']) sr Out[3]: 피자 17000 치킨 18000 맥주 5000 dtype: int64 In [4]: print(sr.index, sr.. 2022. 6. 17.
데이터 분석의 기초2(데이터분석 절차와 데이터 가공) 데이터 분석의 절차 ① 분석 목표 설정 실행 가능성과 활용 가능성을 고려해서 결정 ② 데이터 수집 직접 수집한 데이터와 내부 데이터 및 관련 있는 외부 데이터를 활용 출처에 따라 내부 데이터 그리고 외부 데이터로 나눔 내부 데이터: 내부 데이터는 기업이 보유하고 있는 영업 데이터와 고객 데이터 그리고 거래 정보 또는 매출 기록에 해당하는 기업이 보유하고 있는 데이터 외부로 데이터가 공개되기를 꺼리며 상당한 수준의 보안이 요구되는 데이터를 뜻함. 외부 데이터: 내부 데이터의 반대 개념으로 인터넷에서 접할 수 있는 소셜 데이터와 온라인 뉴스 및 블로그 등과 같은 데이터 공공 데이터 공공 데이터 포털 : https://www.data.go.kr(다양한 공공기관의 데이터 및 api르 제공) 통계청 MDIS : .. 2022. 5. 31.
데이터 분석의 기초1(데이터 종류) 데이터의 종류 종류 정형 데이터 반정형 데이터 비정형 데이터 정형 데이터 테이블(행,열)과 같이 완전하게 규격화된 형식에 저장된 데이터. 체계적이고 규격화된 형식에 저장된 데이터 csv, sql, xlsx, ... 반정형 데이터 테이블과 같이 규격화된 형식에 저장되어 있지는 않지만 내부 형식을 가진 데이터 아래한글이나 워드등으로 작성된 데이터 혹은 페이스북이나 카카오톡들 SNS에 사요자들이 생성한 데이터. XML, HTML, JSON 비정형 데이터 규격화된 형식에 저장되어 있지 않은 자유로운 데이터 빅데이터와 인공지능 세상이 시작되면서 가장 가파른 증가를 보이고 있는 데이터. 이진 데이터(binary file) 2022. 5. 31.