[플레이데이터 SK네트웍스 Family AI 캠프 10기] 5주차 회고

5주 차 학습

Pandas

1. groupby

groupby() 함수를 통해 데이터를 그룹별로 분할할 수 있다.
groupby() 함수는 nunique가 10 미만일 경우에 사용하는 것이 좋다.
통계 함수를 사용하여 그룹별 통계 데이터를 확인할 수 있다.
- mean(): 평균값
- median(): 중간값
- min(): 최솟값
- max(): 최댓값

2. 2개 이상의 DataFrame 조작

merge()
- inner join: 교집합
- left join: left DataFrame을 기준으로 Join
- outer join: 합집합
concat()
- column(axis=1)
  - outer join:합집합
  - inner join: 교집합
- row(axis=0)
  - outer join: 합집합

Data Visualization

1. Data Visualization

Matplotlib
- 단일 그래프
  - plt.plot()
- 다중 그래프
  - fig, ax
- 제목
  - set_title()
- 축 제목
  - 단일 그래프: xlabel() / ylabel()
  - 다중 그래프: set_xlabel() / set_ylabel()
- 눈금
  - set_xticks() / set_yticks()
  - tick_params
- 범례
  - legend()
- 그래프 종류
  - 선 그래프
    - axvline() / axhline()
  - 막대 그래프
    - bar() / barh()
    - 범주형 데이터 비교
  - 산점도 그래프
    - scatter()
  - 히스토그램
    - hist()
    - 연속형 데이터 분포
  - 오차막대 그래프
    - errorbar()
  - 파이차트
    - pie()
  - 히트맵
    - matshow()
  - 박스 플롯
    - boxplot()
Auto ViML
- sweetviz
  - 데이터의 상관관계와 분포, 통계치를 보여주는 패키지
Seaborn
- Relational plots
  - scatterplot
  - lineplot

2. Data Preprocessing

데이터
- 수치형 데이터
  - 수학적인 활용이 가능하다.
  - 연속형 데이터 / 이산형 데이터
- 범주형 데이터
  - 수학적인 활용이 불가능하다.
  - 순서형 데이터 / 명목형 데이터
Pandas EDA
- 상관계수
  - 두 변수 사이의 상관관계를 나타내는 수치
  - corr()
- 왜도
  - 데이터 분포의 비대칭도를 나타내는 통계량
  - skew()
- 첨도
  - 확률 분포의 뾰족한 정도를 나타내는 지표
  - kurt()
- 이상치
  - boxplot()
- 교차분석
  - crosstab()
Data Cleaning
- 완결성
  - 결측치 처리
    - 제거: dropna()
    - 치환: fillna()
    - 모델 기반 처리
      - SimpleInputer()
      - KNNImputer()
      - IterativeImputer()
      - RandomForestRegressor()
- 유일성
  - 중복 데이터 제거
  - drop_duplicates()
- 통일성

Machine Learning

1. Machine Learning

머신러닝 시스템 워크플로우
- 수집
- 점검 및 탐색
- 전처리 및 정제
- 모델링 및 훈련
- 평가
- 배포
머신러닝 알고리즘
- 지도학습
- 비지도학습
- 강화학습

2. Numpy

배열 생성
- np.array()
특수 배열 생성
- np.floor()
- 영행렬: np.zeros()
- 유닛행렬: np.ones()
- np.full()
- 단위행렬: np.eye()
배열 결합
- np.vstack()
- np.hstack()
배열 차원 변환
- np.expand_dims()
- resize()
- ravel()
- T
- reshape()
Norm
- L1(Manhatten) Norm
- L2(Euclidean) Norm
벡터 연산
- 덧셈: +
- 뺄셈: -
- 내적
  - @
  - dot()
- 역행렬
  - inv()
- 난수
  - rand()
  - randint()
  - randn()
  - standard_normal()
  - normal()
  - random_sample()
  - choice()

3. Feature Extraction

문자열
- 공백 제거: strip()
- 문자열 분리: split()
집계
- 피봇 테이블
- 그룹
데이터 변환 / 조합
날짜
- datetime
  - dt.year
  - dt.month
  - dt.day
  - dt.quarter
  - dt.weekday
  - dt.dayofyear

4. Data Encoding

Normal Encoding
- One hot Encoding
- Mean Encoding
Ordinal Encoding
- Label Encoding
- Target Encoding
- Ordinal Encoding

5. Data Scaling and Transformer

Normalizer
Transformer
- Power Transformer
- Quantile Transformer
Scaler
- Standard Scaler
- Min Max Scaler
- Max Abs Scaler
- Robust Scaler

6. Supervised Learning - Classification Model

Linear Classification Model
- Logistic Regression
- Linear SVM
Dicision Tree
KNN

Keep

규칙적인 생활

꾸준히 일찍 일어나고, 8시 20분 전후로 강의실에 도착할 수 있어서 좋다. 그 시간 동안 못다 한 공부를 하거나 프로젝트를 진행할 수 있어서 앞으로도 계속 이어나갈 계획이다.

Problem

시간 관리 문제

토이 프로젝트에 시간을 많이 쓰게 되면서 자격증 공부를 할 시간이 줄어들게 되었다. 이에 시간을 적절히 분배해야 한다.

Try

마음 다짐

점점 귀찮아지고 정신이 해이해지는 것 같아서 마음을 다시 잡아야 한다. 해야 할 일이 많기 때문에 계속 미루는 것은 좋지 않다.

'SK네트웍스 Family AI캠프 10기 > Weekly 회고' 카테고리의 다른 글

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 7주차 회고 (0)	2025.02.23
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 6주차 회고 (0)	2025.02.17
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 4주차 회고 (0)	2025.02.02
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 3주차 회고 (0)	2025.01.26
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 2주차 회고 (0)	2025.01.18

이네의 개발 노트

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 5주차 회고

5주 차 학습

Pandas

Data Visualization

Machine Learning

Keep

Problem

Try

'SK네트웍스 Family AI캠프 10기 > Weekly 회고' 카테고리의 다른 글

티스토리툴바

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 5주차 회고

5주 차 학습

Pandas

Data Visualization

Machine Learning

Keep

Problem

Try

'SK네트웍스 Family AI캠프 10기 > Weekly 회고' 카테고리의 다른 글

'SK네트웍스 Family AI캠프 10기/Weekly 회고' Related Articles

티스토리툴바