5주 차 학습
Pandas
1. groupby
- groupby() 함수를 통해 데이터를 그룹별로 분할할 수 있다.
- groupby() 함수는 nunique가 10 미만일 경우에 사용하는 것이 좋다.
- 통계 함수를 사용하여 그룹별 통계 데이터를 확인할 수 있다.
- mean(): 평균값
- median(): 중간값
- min(): 최솟값
- max(): 최댓값
2. 2개 이상의 DataFrame 조작
- merge()
- inner join: 교집합
- left join: left DataFrame을 기준으로 Join
- outer join: 합집합
- concat()
- column(axis=1)
- outer join:합집합
- inner join: 교집합
- row(axis=0)
- outer join: 합집합
- column(axis=1)
Data Visualization
1. Data Visualization
- Matplotlib
- 단일 그래프
- plt.plot()
- 다중 그래프
- fig, ax
- 제목
- set_title()
- 축 제목
- 단일 그래프: xlabel() / ylabel()
- 다중 그래프: set_xlabel() / set_ylabel()
- 눈금
- set_xticks() / set_yticks()
- tick_params
- 범례
- legend()
- 그래프 종류
- 선 그래프
- axvline() / axhline()
- 막대 그래프
- bar() / barh()
- 범주형 데이터 비교
- 산점도 그래프
- scatter()
- 히스토그램
- hist()
- 연속형 데이터 분포
- 오차막대 그래프
- errorbar()
- 파이차트
- pie()
- 히트맵
- matshow()
- 박스 플롯
- boxplot()
- 선 그래프
- 단일 그래프
- Auto ViML
- sweetviz
- 데이터의 상관관계와 분포, 통계치를 보여주는 패키지
- sweetviz
- Seaborn
- Relational plots
- scatterplot
- lineplot
- Relational plots
2. Data Preprocessing
- 데이터
- 수치형 데이터
- 수학적인 활용이 가능하다.
- 연속형 데이터 / 이산형 데이터
- 범주형 데이터
- 수학적인 활용이 불가능하다.
- 순서형 데이터 / 명목형 데이터
- 수치형 데이터
- Pandas EDA
- 상관계수
- 두 변수 사이의 상관관계를 나타내는 수치
- corr()
- 왜도
- 데이터 분포의 비대칭도를 나타내는 통계량
- skew()
- 첨도
- 확률 분포의 뾰족한 정도를 나타내는 지표
- kurt()
- 이상치
- boxplot()
- 교차분석
- crosstab()
- 상관계수
- Data Cleaning
- 완결성
- 결측치 처리
- 제거: dropna()
- 치환: fillna()
- 모델 기반 처리
- SimpleInputer()
- KNNImputer()
- IterativeImputer()
- RandomForestRegressor()
- 결측치 처리
- 유일성
- 중복 데이터 제거
- drop_duplicates()
- 통일성
- 완결성
Machine Learning
1. Machine Learning
- 머신러닝 시스템 워크플로우
- 수집
- 점검 및 탐색
- 전처리 및 정제
- 모델링 및 훈련
- 평가
- 배포
- 머신러닝 알고리즘
- 지도학습
- 비지도학습
- 강화학습
2. Numpy
- 배열 생성
- np.array()
- 특수 배열 생성
- np.floor()
- 영행렬: np.zeros()
- 유닛행렬: np.ones()
- np.full()
- 단위행렬: np.eye()
- 배열 결합
- np.vstack()
- np.hstack()
- 배열 차원 변환
- np.expand_dims()
- resize()
- ravel()
- T
- reshape()
- Norm
- L1(Manhatten) Norm
- L2(Euclidean) Norm
- 벡터 연산
- 덧셈: +
- 뺄셈: -
- 내적
- @
- dot()
- 역행렬
- inv()
- 난수
- rand()
- randint()
- randn()
- standard_normal()
- normal()
- random_sample()
- choice()
3. Feature Extraction
- 문자열
- 공백 제거: strip()
- 문자열 분리: split()
- 집계
- 피봇 테이블
- 그룹
- 데이터 변환 / 조합
- 날짜
- datetime
- dt.year
- dt.month
- dt.day
- dt.quarter
- dt.weekday
- dt.dayofyear
- datetime
4. Data Encoding
- Normal Encoding
- One hot Encoding
- Mean Encoding
- Ordinal Encoding
- Label Encoding
- Target Encoding
- Ordinal Encoding
5. Data Scaling and Transformer
- Normalizer
- Transformer
- Power Transformer
- Quantile Transformer
- Scaler
- Standard Scaler
- Min Max Scaler
- Max Abs Scaler
- Robust Scaler
6. Supervised Learning - Classification Model
- Linear Classification Model
- Logistic Regression
- Linear SVM
- Dicision Tree
- KNN
Keep
규칙적인 생활
꾸준히 일찍 일어나고, 8시 20분 전후로 강의실에 도착할 수 있어서 좋다. 그 시간 동안 못다 한 공부를 하거나 프로젝트를 진행할 수 있어서 앞으로도 계속 이어나갈 계획이다.
Problem
시간 관리 문제
토이 프로젝트에 시간을 많이 쓰게 되면서 자격증 공부를 할 시간이 줄어들게 되었다. 이에 시간을 적절히 분배해야 한다.
Try
마음 다짐
점점 귀찮아지고 정신이 해이해지는 것 같아서 마음을 다시 잡아야 한다. 해야 할 일이 많기 때문에 계속 미루는 것은 좋지 않다.
'SK네트웍스 Family AI캠프 10기 > Weekly 회고' 카테고리의 다른 글
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 7주차 회고 (0) | 2025.02.23 |
|---|---|
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 6주차 회고 (0) | 2025.02.17 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 4주차 회고 (0) | 2025.02.02 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 3주차 회고 (0) | 2025.01.26 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 2주차 회고 (0) | 2025.01.18 |