내배카 국비지원 프로그램을 듣고 있슴.
오늘부터는 과제도 할 겸 + 스스로 배운 거 정리도 할 겸 매 주 배운 내용들을 짧게 정리해서 게시하려고 한다!
(말투가 어색하니 수정도 계속 하고^^...)
*4차 산업혁명 시대 : 빅데이터, 인공지능, 사물인터넷 등의 기술을 활용해 "디지털 트윈", 즉 오프라인 세계와 똑같은 세계를 온라인 상에 구현하고 두 세계를 자유롭게 넘나드는 세상 (2016년 단어 처음 등장) - 정확한 정의는 없음.
ex) 온라인 쇼핑몰
*4차 산업혁명 시대의 가장 중요한 핵심가치 : 데이터
(feat. 석탄, 석유, 정보, 그리고 데이터 (1,2,3,4차 산업 핵심가치))
*데이터분석의 정의: 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 "지원"하는 것 을 목표로 데이터를 정리, 변환, 모델링 하는 과정. 오늘날 비즈니스 부문에서 의사결정을 과학적으로 만들어주고 비즈니스를 더 효율적으로 운영할 수 있도록 "도와"주는 역할을 한다. - 구글 발췌
- 이동훈 강사님이 생각한 정의 : 다양한 데이터 분석을 활용한 인사이트 도출
**나만의 데이터 분석에 대한 정의 생각해보기!
*데이터 분석의 목적 : 인사이트 도출
데이터를 잘 다루기 위한 소프트스킬 - 데이터리터러시
*데이터 리터러시 : 단순히 데이터를 읽고 쓸 수 있는 것만이 아닌, 데이터를 구조적 상확적 등 다양한 관점에서 이해하고 활용할 수 있는 역량
*기술적 데이터 리터러시 : 데이터 유형, 개수, 계급종류, 계급 개수, 합계, 평균, 중앙값, 최대값, 최소값, 계급별 데이터 개수
*해석적 데이터 리터러시 : 데이터를 석적인 관점에서 데이터의 의미를 뽑아내는 것.
기술적, 해석적 데이터 리터러시는 상호보완적인 관계
[데이터 리터러시가 중요한 이유]
1)인류가 기록을 남기기 시작한 유사 이래로 2000년대 초반까지 생산된 정보의 총량은 약 20엑사바이트로 추청(2000경 바이트)
2010년 디지털 시대로 진입하면서 매일 3 엑사바이트의 정보량이 생산되었다고 추정 → 인류가 2천년 동안 생산한 정보의 양이 2010년대는 1주일에 1번씩 생산됨. = 데이터 범람의 시대 = 빅데이터시대
2) 이런 시대에 우리는 넘쳐나는 데이터를 모두 볼 수 없음 (정보의 홍수=정보의 가뭄)
[데이터 분석의 과정]
문제 정의 및 분석 목적 설정 > 데이터수집 > 데이터탐색 > 데이터전처리 > 데이터분석> 검증 및 평가 > 데이터 시각화
Excel : 다가오는 4차 산업혁명, 빅데이터 시대에서 데이터 리터러시와 데이터 분석 역량을 갖추기 위한 가장 쉽고 완벽한 도구 / 저렴한 비용의, 비교적 쉬운
[엑셀을 배워야하는 이유]
1. 기업에서 가장 많이 활용
2. 나의 빠른 퇴근을 위해 (행복한 회사생활을 위해ㅋㅋ)
[엑셀을 잘 한다는것은]
#사용자의 입장에서(사용자가 누구인지, 원하는 정보가 뭔지)
#목적 에 부합하도록(왜 필요한지, 어떤 관점, 아웃풋)
#자료를 구성하는것 (비주얼라이제이션, 심플앤이지)
*강사님 입장 : 단축키 활용(누가 마우스 썌벼도 될정도로 키보드로만 가능한)
[반드시 기억해야할 엑셀의 기초]
① 엑셀의 모든 에는 서식이 적용되어 있다.
-> 복사/붙여넣기를 할 때, 수식/값/서식을 각각 따로 붙여 넣어야한다.
② 함수를 사용하는 상황에 따라 각각의 참조를 적절히 사용해야 함
[엑셀 데이터의 종류]
1) 값 - 텍스트, 숫자
2) 수식 - 계산식, 함수
3) 서식 - 글꼴서식, 셀 서식
[엑셀의 행과 열]
행은 "상하로", 열은 "좌우"로 변경됨
행 4행
5행
6행
열 F열 G열 H열
[상대참조와 절대참조 그리고 혼합참조]
상대참조 : 복사 붙여넣기 할 때 참조된 셀이 함께 이동 [F4키 4번]
절대참조 : 복사 붙여넣기 할때 참조된 셀이 이동하지 않음 [F4키 1번]
혼합참조 : 행 OR 열에만 절대참조 [F4키 2번 : 행 고정 / F4키 3번 : 열 고정]
★ ★ [빠른실행도구모음 추천 기능 7가지] - 업무 속도 500% 올리기
[파일] > [옵션] > [빠른 실행도구 모음] > 추가

합계 : Alt+1
수식 붙여넣기 : Alt+2
값 붙여넣기 : Alt+3
서식 붙여넣기 : Alt+4
화면에 보이는 셀 선택 : Alt+5
틀 고정 : Alt+6
병합하고 가운데 맞춤 : Alt+7 ← 요거는 절.대 쓰지 말아달라고 부탁받음 ㅋㅋㅋ
**병합하고 가운데 맞춤 대신 ctrl+1 > 맞춤 > 선택 영역의 가운데로(가로)
[ctrl+shift ~부터 6까지 숫자 형식 나타내는 단축키]
열 전체 선택 : ctrl+space
행 전체 선택 : shift+space
행/열 추가 ctrl +
행/열 삭제 ctrl -
행 숨기기 ctrl+9
행 숨기기 취소 ctrl+shift+9
열 숨기기 ctrl+0
열 숨기기 취소 단축기 없음
[표시형식으로 데이터서식 자동 변경하기]
[빨강]"▲"#,##0;[파랑]"▼"#,##0;"-"
[탐색적 데이터 분석(EDA)]
: 기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐 자료가 가지고 있는 본연의 의미를 찾는데 어려움이 있어, 이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록 하는 자료 분석 방법
"탐색적 데이터 분석은 우리가 존재한다고 믿는 것들은 물론이고 존재하지 않는다고 믿는 것들을 발견하려는 태도, 유연성, 그리고 자발성이다" -존 튜키(미국의 저명한 통계학자)
[EDA를 반드시 수행해야하는 이유]
- 내 입맛대로 수집되는 데이터는 없다
- 수집된 데이터의 특성 및 분포를 파악해야 한다
- 결측치, 이상치의 존재 유무를 파악할 수 있다
- 탐색적 데이터 분석의 결과를 바탕으로 분석에 필요한 데이터 전처리를 수행할 수 있다
- 가장 적합한 분석 방법을 결적할 수 있다
즉, EDA를 잘 수행해야 전반적인 데이터 분석 또한 잘 수행할 수 있다.
기본적인 정보 파악을 위해. 꼭 해야함. EDA란 기존 데이터만 가지고 잘 보일 수 있게 바꾸는거.
데이터 탐색이 EDA만을 뜻하는건X
[엑셀에서 할 수 있는 데이터 분석 도구]
º 데이터 분석 도구를 활용한 "기초 통계량" 계산
(기초통계량 = 평균, 최소, 합계, 최대 등등)
★데이터 분석 도구 추가하기
파일> 옵션> 추가기능> 이동 > 분석도구 or (분석도구 팩 ) 체크 (vba는 아님) -> 데이터 탭에 데이터 분석 추가 된거 확인 가능
*기술 통계쓸때는, 범위는 열의 이름들도 범위에 잡고, 첫째 이름표 사용 체크, 출력범위는 한칸, 요약통계랑 체크
★평균은 이상치에 민감하다.
중앙값은 이상치에 강건하다.
대표값으로 중앙값 사용이 적절.
ex. 정부지원정책에 사람들 소득으로 중위소득기준 사용
사람들 소득 기준으로 사용하는건 중위소득기준
소득기준을 평균으로 썼다면, 그 해 우연히 소득 적은 사람들이 많으면 평균 소득이 훅 늘거나 줄까봐.
중앙값에 해당하는 중위소득기준 사용.(공정성을 기하기 위해)
[최빈값] : 데이터에서 가장 빈번하게 등장하는 값.
#N/A로 나오면 모든 데이터가 고유값이라는 뜻.
[분산과 표준편차]
데이터가 평균을 기준으로 얼마나 분산되어 있는지
평균과 각 데이터들의 편차를 나타냄
범위 : 최대값-최솟값
º 피벗테이블 : 엑셀에서 커다란 표의 데이터를 요약하는 통계표
내가 만들어야 하는 피벗테이블을 손으로 그려보고 따라 그리기!
'패스트캠퍼스🥕' 카테고리의 다른 글
| ■패스트캠퍼스 데이터 분석 부트캠프■ 5주차 #python 라이브러리 (6) | 2024.09.20 |
|---|---|
| ■패스트캠퍼스 데이터 분석 부트캠프■ 4주차 #python 크롤링/전처리/시각화 (3) | 2024.09.13 |
| ■패스트캠퍼스 데이터 분석 부트캠프■ 3주차 #데이터 분석을 위한 python (2) | 2024.09.06 |
| ■패스트캠퍼스 데이터 분석 부트캠프■ 2주차 #데이터 분석을 위한 기초 수학/통계 (0) | 2024.08.30 |
| 패스트캠퍼스 데이터 분석 부트캠프 OT 후기 (16기) (0) | 2024.08.19 |