■패스트캠퍼스 데이터 분석 부트캠프■ 2주차 #데이터 분석을 위한 기초 수학/통계

패스트캠퍼스 데이터 분석 부트캠프 2주차를 마치며, 이번주에 배운 내용들 리마인드 하기!

블로그를 좀 꾸미고 싶지만... 이것은 천천히 하도록 하자.. 천천히...

지난주 엑셀을 이용한 EDA_이상치 결측치 탐지에 이어서 상관분석부터 시작!

상관 분석과 산점도

■ 상관분석

두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법

■ 상관관계

한쪽이 증가하면 다른 쪽도 증가하거나 반대로 감소되는 경향을 인정하는 두 양 사이의 통계적 관계 -> 상관계수를 통해 파악

■ 상관계수

r은 두 변수 사이의 상관성을 나타내며 일반적으로 피어슨 상관 계수를 사용
상관계수가 1에 가까울 수록 양의 상관 관계(정비례), -1에 가까울수록 음의 상관관계(반비례), 0에 가까우면 큰 상관관계가 없다

>>강한 상관관계를 가지고 있다고 해서 두 변수가 반드시 인과 관계를 가지는 것은 x
>>상관 관계가 높은 변수들을 중심으로 실험을 통해 인과 관계를 경험적으로 입증해야함

■ 상관 계수표

분석 대상 변수들의 상관 관계를 한 눈에 보여주는 표

* EDA에서 상관 분석의 역할 : 인과 관계가 있을 것으로 예상되는 변수들을 선별해 분석의 우선순위를 정할 수 있음 : 시간과 비용의 효율성 증대

■ 산점도

데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프

(엑셀 데이터 이름열 빼고 잡기)

*엑셀에서 그리는 법 : 데이터 열 왼쪽부터 x,y순으로 있지 않을때, 빈셀 클릭 > "분산형 차트" 삽입 그리고 직접 데이터 입력

■ 데이터 전처리

데이터의 분석 목적과 방법에 맞게 데이터를 가공 또는 처리하는 과정
데이터 분석 과정중 가장 많은 시간과 비용이 필요한 과정
> 강사님 曰 : 제일 중요!! garbage in, garbage out > 제대로 가공된 자료가 필요

■ 데이터 전처리에 자주 활용되는 함수

[데이터 분류]
1) IF 함수 활용해서 데이터 분류하는 법 (참조 주의)
2) VLOOKUP 활용해서 데이터 불러오는 법
ㄴ함수 많이 쓰는 이유
브이룩업 심화 과정 : 1) 열번호 참조 2)match함수 대입 / 인덱스매치

[데이터 계산]
count
counta
countblank
countif
countifs <- 사용 추천
* countif 함수 조건으로 부등식or문자를 사용할때는 ""를 붙여야한다 (">="&O5 -> O5 이상)
sumif
sumifs <- 사용 추천

[기타]
텍스트나누기

* 한 셀에 여러 정보가 들어가있으면 한 셀 가지고 countifs나 sumifs로 쉽게 작업하기 힘들어서 나눠놓으면 편함
중복된 항목 제거하기
고급필터
데이터 유효성 검사

통계적 데이터분석 / 모델링

■ 통계학의 의미
- 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
- 연구 목적에 필요한 자료 및 정보를 최적한 방법으로 수집하고, 수집한 자료를 과학적으로 논리적인 이론에 의하여 정리 분석하는 학문
- 통계학은 관심 또는 연구의 대상이 되는 모집단으로부터 자료를 수집, 정리, 요약을 하고 표본정보로부터 자료를 추출했던 대상 전체인 모집단에 대한 최적의 의사 결정을 내릴 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문

■ 기술통계학
요약 통계량, 그래프 표 등을 이용해 데이터를 정리, 요약하여 데이터의 전반적인 특성을 파악하는 방법
표, 그래프 등을 활용해 데이터를 시각적으로 표현하고 통계량 등으로 수치를 요약함

■ 추론통계학
데이터가 모집단으로부터 나왔다는 가정하게 모집단으로부터 추출된 표본을 사용하여 모집단의 특성을 파악하는 방법
점 추정, 구간 추정을 하거나 가설을 검정함

■ 가설검정

통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정 = 귀무가설을 기각해서 대립가설이 맞다고 주장하는 과정

■ 귀무가설

기본적으로 참으로 추정되며 처음부터 버릴 것으로 예상하는 가설(차이가 없거나, 의미 있는 차이가 없는 경우)

■ 대립가설

귀무 가설에 대립하는 명제 / 보통 독립 변수와 종속 변수 사이에 어떤 특정한 관련이 있다는 결과가 도출됨. 귀무가설을 기각하는 반증의 과정을 거쳐 참이라고 받아들여질 수 있음

*대립가설의 종류 1형 - 양측검정 / 2형,3형 - 단측 검정

■ P-value 유의확률

귀무가설이 맞다는 전제하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률 (가설검정의 기준 :p - value(유의확률))

*사용할 때 주의사항
p-value는 관계나 집단들 사이에 차이가 생겨나는 것이 우연한 것인지 변수에 의한 것인지 여부를 밝히는 것
하지만 이것이 효과나 변화의 정도, 관계의 강도나 크기 등을 설명하는 것은 아님

■ F-검정

두 집단의 "분산"에 통계적으로 유의미한 차이가 있는지를 검정
전체적으로 유의미하게 변동 (분산 확인)
두 집단의 분산 차이를 검정해 각 상황에 맞는 t-test 방법을 선정하기 위해 사용

* F - 검정의 귀무가설
두 집단의 분산에 유의미한 차이가 없다 (p>=유의수준) 0.05
a,b집단의 분산이 같다
-> 등분산 가정 t-test 사용

* F - 검정의 대립가설
두 집단의 분산에 유의미한 차이가 있다 (p<유의수준)
a,b집단의 분산이 다르다
->이분산 가정 t-test 사용

■ t-test

두 집단(또는 한 집단의 전/후)의 "평균"에 통계적으로 유의미한 차이가 있는지를 검정

* t-test 귀무가설
두 집단의 평균에 유의미한 차이가 없다 (p>=유의수준) 0.05

* t-test 대립가설
두 집단의 평균에 유의미한 차이가 없다 (p<유의수준)

순서 : 변수 선택 > F - 검정 > t-test > 결과해석

(예시)

■ 회귀분석

두 개 이상 연속형 변수(수치)인 종속 변수와 독립 변수 간의 관계를 파악하는 분석

y = a x+b
종속변수 독립변수

*종속변수 : 우리가 알고 싶은 값
*독립변수 : 우리가 알고 있는 값

■ 회귀부석의 목적

두 변수 간의 관계를 파악해 우리가 알고 싶은 값을 예측하는 것

■ 회귀분석의 종류

회귀모형의 모양에 따라 선형 회귀 분석/비선형 회귀 분석으로, 독립변수의 개수에 따라 단순 회귀 분석과 다중 회귀 분석으로 구분

■ 단순 선형 회귀 분석

독립 변수가 변할 때, 종속변수 값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법 ->y와 x 사이의 1차 방정식 구하기

■ 단순 선형 회귀 분석의 원리

독립변수가 변할 때, 종속 변수값이 어떻게 변하는지를 가장 잘 설명해주는 직선을 찾아 그 직선이 x와 y의 관계를 얼마나 설명하고 있는지 분석하는 방법 -> y와 x사이의 1차 방정식 구하기

* 오차가 제일 작은 것 - 오차들의 제곱의 합계가 제일 작은 것을 찾는 것 = 최소제곱법 -> 오차 : (실제값 - 예측값)의 제곱

■ 단순 선형 회귀 분석의 평가와 해석을 위한 지표

* 회귀분석의 지표:
① 결정계수 : 0~1값을 가지며 실제 데이터의 값을 잘 설명한다. = r^2 (상관계수의 제곱)
② 유의한 F : (가설검정의 p값)
귀무가설 : a=0, a=/0 분산이 같다.
대립가설 : 분산이 다르다.
*F가 0.05보다 작으면 a가 유의미하므로 회귀 모형이 사용이 가능하다. 는 뜻
③ y절편 (=b)

(예시) - 노란색 색인 주목

■ 다중 선형 회귀 분석

독립 변수가 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석

■ 다중 선형 회귀 분석의 평가와 해석을 위한 지표
① 조정된 결정계수
★쓸모 없는 독립변수더라도 독립변수의 갯수가 늘어나면 결정계수가 늘어남. 따라서 이 결정계수를 조정해준 것이 조정된 결정 계수
② 유의한 F
③ y절편 및 각 독립 변수의 p-value와 계수 확인
p값이 <0.05 이어야 유의미

★그래프 그릴때, p값이 0.05보다 작은 독립변수들만 사용한다.

(예시) - 노란색 색인 주목

■ 시계열 데이터 분석

시간의 흐름에 따라 발생된 데이터를 분석하는 기법

■ 시계열 데이터

시간을 이어 늘어뜨린 데이터, 시간의 흐름에 따라 정리한 데이터 (ex.주가, 기온, 판매건수, 고객수, 매출액, 이익액, 할인율 등)

■ 지수 평활법

현재 시점에 가까운 시계열 자료에 큰 가중치를 주고, 과거 시계열 데이터일수록 작은 가중치를 주어 미래 시계열 데이터를 예측하는 기법

*FORECAST.ETS : 지수 평활법 관련 예측 함수 (wow...)
: 비교적 뚜렷한 계절성이 있는 데이터 예측에 사용하기 좋음.
- 계절성 : 적어도 3번 이상은 보여야 적당

(예시)

머신러닝

■ 머신러닝(기계학습, mashine learning)

경험과 학습을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구이며 인공지능의 한 분야
컴퓨터가 스스로 학습하여 인공지능의 성능을 향상 시키는 기술 방법

■ 지도학습 (=교사학습)

정답(y)이 있는 데이터를 활용해 데이터를 학습하고, 학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 학습분류, 회귀 문제들을 해결할 수 있음

*지도학습의 종류
- 회귀 : 연속형 수치의 입력 값을 활용해 특정 수치를 예측하는 지도학습 (ex.다음해 매출액 예측, 주가 예측)
- 분류 : 주어진 입력 값을 2개 혹은 여러개의 결과값으로 분류하는 지도 학습 (ex.스팸 메일 여부 판단, 구매 고객군 분류)

■ 비지도학습

정답(y)이 없는 데이터를 활용해 데이터를 학습, 데이터가 어떻게 구성되어 있는지, 혹은 어떻게 분류될 수 있는지에 대한 문제 해결

*비지도학습의 종류
- 군집화(클러스터링)

■ 강화학습

학습 시스템이 취한 행동에 대해 보상 또는 벌점을 주어 가장 큰 보상을 받는 방향으로 유도하는 방법, 가장 큰 보상을 얻기 위해 에이전트가 해야 할 행동을 선택하는 방법을 정의하게 되는데 이를 ' 정책' 이라고 함.

데이터시각화

■ 데이터 시각화

데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정

■ 데이터 시각화가 중요한 이유
현대 기업은 일반적으로 다양한 데이터 소스에서 수지보디는 많은 데이터를 처리하지만 raw 데이터는 이해하고 사용하기 어려울 수 있음
의사결정자가 데이터 간의 관계를 식별하고 숨겨진 패턴이나 추세를 감지할 수 있도록 데이터에 시각적 형태를 부여
데이터 시각화는 비즈니스 인텔리전스를 개선하고 데이터 중심 의사 결정 및 전략적 계획 수립을 지원하는 이야기를 만드는 스토리텔링

■ 차트를 그릴 때 고민해야 하는 3가지
- 차트 숫자 선택 = 어떤 숫자의 다른 표현
- 차트 종류 선택 : 어떤 차트가 우리의 데이터를 가장 효과적으로 나타낼 수 있는 지 고민
- 차트 디자인 선택 : 중요한 데이터 어떻게 강조할 것인가 고민

*차트를 효과적으로 디자인할 수 있는 4단계 원칙 : 중요한 데이터를 어떻게 강조할것인가에 초점을 맞춰야 함
1. 차트의 모든 데이터를 단색으로 변경(회색 추천)
2. 차트에서 가장 중요한(강조해야하는)데이터 선정
3. 차트의 메인 컬러(1개) 선택
4. 2의 중요 데이터에만 3의 메인 컬러 적용

+데이터 레이블(숫자) 추가
+차트의 윤곽선 제거

* 콤보형 차트 : 2개 이상의 정보를 표현하는 콤보형 차트

* 거품형 차트 : 숫자의 크기나 비율으 거품으로 나타내는 차트, 거품의 위치나 거품의 크기, 거품의 색 등을 활용해 정보를 표현
★분산형, 거품형은 이름열 잡지 않고 차트 생성

* 폭포형 차트 : 데이터의 증가, 감소분 만큼을 막대 그래프로 표현 (엑셀 2016 버전 이상에서 사용 가능)

2주차 데이터분석 수업 & 엑셀 수업 끝 -!

엑셀 수업을 마무리하며..

나 엑셀 생각보다 좋아했네.. 좋았다.. 초반 2주 엑셀과 함께해서..친절한 강사님과 함께해서...(계속하고싶다ㅠ)

데이터분석에 대한 나만의 정의는 아직까지 생각해보지 못했다. 더 배우고 싶다^^... 엑셀 너무 재밌어요! 너무!

계속해서 엑셀 이론&실습을 진행하면서 '실무에서 매출 정리를 이렇게 해볼걸, 발표 자료 이렇게 만들어볼걸' 하고 중얼거리는 스스로를 보면 2주라는 짧은 기간동안에도 이 부트캠프를 통해 배울 점이 많다는 걸 알 수 있다.

(특히 대시보드 슬라이서 활용편 보고는 와우하고 감탄만! 0o0...!)

앞으로 파이썬, sql, 태블로 등을 배우면서 프로젝트도 할텐데 생각만 해도 너무 두근거린다 (안 왔으면 좋겟어 그 날이..)

화이팅!

'패스트캠퍼스🥕' 카테고리의 다른 글

■패스트캠퍼스 데이터 분석 부트캠프■ 5주차 #python 라이브러리 (6)	2024.09.20
■패스트캠퍼스 데이터 분석 부트캠프■ 4주차 #python 크롤링/전처리/시각화 (3)	2024.09.13
■패스트캠퍼스 데이터 분석 부트캠프■ 3주차 #데이터 분석을 위한 python (2)	2024.09.06
■패스트캠퍼스 데이터 분석 부트캠프■ 1주차 #엑셀을 활용한 데이터 분석 (0)	2024.08.23
패스트캠퍼스 데이터 분석 부트캠프 OT 후기 (16기) (0)	2024.08.19

'패스트캠퍼스🥕' 카테고리의 다른 글

티스토리툴바