[KT AIVLE SCHOOL]

데이터 분석(1)

조진목_스터디 2024. 9. 25. 19:55

데이터분석 방법론


CRISP-DM

(Cross-Industry Standard Process for Data Mining)

비즈니스 이해 -> 데이터 이해 -> 데이터 준비   -> 모델링 -> 평가 -> 적용으로 이루어진 프로세스

비즈니스 이해에서 평가까지 과정은 언제나 순환할 수 있다.

 

비즈니스 이해 : 가설 수립

- 해결해야 할 목표가 무엇인가 (목표, 관심사, y)

- Y를 설명하가기 위한 요인을 찾아라(x)

- 가설의 구조를 정의하라 (x -> y)

 

데이터 이해

내부, 외부 데이터로 구분되고 내부 데이터는 그대로 사용 가능 / 가공해야 사용 가능한 데이터로 분류되고 외부데이터는 취득한 데이터 / 불가능한 데이터로 분류된다.  

 

데이터를 이해하는 방식 EDA, CDA 크게 두 가지이다.

EDA는 탐색적 데이터 분석으로 개별 데이터의 분포, 가설이 맞는지 파악한다.

- 그래프, 통계량

 

CDA는 탐색으로 파악하기 애매한 정보를통계적 분석 도구(가설 검정) 사용해 파악한다.

- 가설검정, 실험 

 

데이터 준비

모든 셀에 값이 있어야 한다.

모든 값이 숫자이어야 한다.

값의 범위를 일치시켜야 한다. (옵션)   

- 결측치 조치, 가변수화, 스케일링, 데이터 분할

 

모델링

데이터로부터 패턴을 찾는 과정

오차를 최소화 하는 패턴 

 

평가

모델에 대한 데이터 분석 목표와 비즈니스 목표달성에 대한 평가

모델과 데이터에서 추출한 패턴이 규칙성을 갖는지 특정 예제 데이터에서만 볼 수 있는 성질은 아닌지 판단

비즈니스 목표에 부합되는지 보장

 

적용

프로젝트 결과물 최종 확정: 프로덕션 환경의 파이프라인, 모델 및 배포가 고객 목표를 충족하는지 확인

운영시스템에서 품질 유지 기준을 정하고, 모니터링 계획을 수립

 

 

히스토그램 

plt.figure(figsize = (6, 6))
plt.subplot(2,2,1)
sns.histplot(titanic['Age'], bins=8)
plt.subplot(2,2,2)
sns.histplot(titanic['Age'], bins=16)
plt.subplot(2,2,3)
sns.histplot(titanic['Age'], bins=32)
plt.subplot(2,2,4)
sns.histplot(titanic['Age'], bins=64)
plt.show()

 

 

밀도함수 그래프 

sns.kdeplot(titanic['Fare'])
# sns.kdeplot(x='Fare', data = titanic)

plt.show()

 

 

보통 같이 출력

sns.histplot(titanic['Age'], kde=True)

 

 

boxplot

temp = titanic.loc[titanic['Age'].notnull()]

plt.boxplot(temp['Age'])
plt.grid()
plt.show()

--------------------------------------------------

sns.boxplot(x = titanic['Age'])
plt.grid()
plt.show()

 

 

 

'[KT AIVLE SCHOOL]' 카테고리의 다른 글

데이터 분석(3)  (0) 2024.09.29
데이터 분석(2)  (0) 2024.09.26
1차 미니 프로젝트  (0) 2024.09.23
파이썬 기초(10)  (0) 2024.09.22
파이썬 기초(9)  (0) 2024.09.19