본문 바로가기

SK네트웍스 Family AI캠프 10기/Weekly 회고

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 5주차 회고

5주 차 학습

 

 

Pandas

 

1. groupby

  • groupby() 함수를 통해 데이터를 그룹별로 분할할 수 있다.
  • groupby() 함수는 nunique가 10 미만일 경우에 사용하는 것이 좋다.
  • 통계 함수를 사용하여 그룹별 통계 데이터를 확인할 수 있다.
    • mean(): 평균값
    • median(): 중간값
    • min(): 최솟값
    • max(): 최댓값

 

2. 2개 이상의 DataFrame 조작

  • merge()
    • inner join: 교집합
    • left join: left DataFrame을 기준으로 Join
    • outer join: 합집합
  • concat()
    • column(axis=1)
      • outer join:합집합
      • inner join: 교집합
    • row(axis=0)
      • outer join: 합집합

 

 

Data Visualization

 

1. Data Visualization

  • Matplotlib
    • 단일 그래프
      • plt.plot()
    • 다중 그래프
      • fig, ax
    • 제목
      • set_title()
    • 축 제목
      • 단일 그래프: xlabel() / ylabel()
      • 다중 그래프: set_xlabel() / set_ylabel()
    • 눈금
      • set_xticks() / set_yticks()
      • tick_params
    • 범례
      • legend()
    • 그래프 종류
      • 선 그래프
        • axvline() / axhline()
      • 막대 그래프
        • bar() / barh()
        • 범주형 데이터 비교
      • 산점도 그래프
        • scatter()
      • 히스토그램
        • hist()
        • 연속형 데이터 분포
      • 오차막대 그래프
        • errorbar()
      • 파이차트
        • pie()
      • 히트맵
        • matshow()
      • 박스 플롯
        • boxplot()
  • Auto ViML
    • sweetviz
      • 데이터의 상관관계와 분포, 통계치를 보여주는 패키지
  • Seaborn
    • Relational plots
      • scatterplot
      • lineplot

 

2. Data Preprocessing

  • 데이터
    • 수치형 데이터
      • 수학적인 활용이 가능하다.
      • 연속형 데이터 / 이산형 데이터
    • 범주형 데이터
      • 수학적인 활용이 불가능하다.
      • 순서형 데이터 / 명목형 데이터
  • Pandas EDA
    • 상관계수
      • 두 변수 사이의 상관관계를 나타내는 수치
      • corr()
    • 왜도
      • 데이터 분포의 비대칭도를 나타내는 통계량
      • skew()
    • 첨도
      • 확률 분포의 뾰족한 정도를 나타내는 지표
      • kurt()
    • 이상치
      • boxplot()
    • 교차분석
      • crosstab()
  • Data Cleaning
    • 완결성
      • 결측치 처리
        • 제거: dropna()
        • 치환: fillna()
        • 모델 기반 처리
          • SimpleInputer()
          • KNNImputer()
          • IterativeImputer()
          • RandomForestRegressor()
    • 유일성
      • 중복 데이터 제거
      • drop_duplicates()
    • 통일성

 

Machine Learning

 

1. Machine Learning

  • 머신러닝 시스템 워크플로우
    • 수집
    • 점검 및 탐색
    • 전처리 및 정제
    • 모델링 및 훈련
    • 평가
    • 배포
  • 머신러닝 알고리즘
    • 지도학습
    • 비지도학습
    • 강화학습

 

2. Numpy

  • 배열 생성
    • np.array()
  • 특수 배열 생성
    • np.floor()
    • 영행렬: np.zeros()
    • 유닛행렬: np.ones()
    • np.full()
    • 단위행렬: np.eye()
  • 배열 결합
    • np.vstack()
    • np.hstack()
  • 배열 차원 변환
    • np.expand_dims()
    • resize()
    • ravel()
    • T
    • reshape()
  • Norm
    • L1(Manhatten) Norm
    • L2(Euclidean) Norm
  • 벡터 연산
    • 덧셈: +
    • 뺄셈: -
    • 내적
      • @
      • dot()
    • 역행렬
      • inv()
    • 난수
      • rand()
      • randint()
      • randn()
      • standard_normal()
      • normal()
      • random_sample()
      • choice()

 

3. Feature Extraction

  • 문자열
    • 공백 제거: strip()
    • 문자열 분리: split()
  • 집계
    • 피봇 테이블
    • 그룹
  • 데이터 변환 / 조합
  • 날짜
    • datetime
      • dt.year
      • dt.month
      • dt.day
      • dt.quarter
      • dt.weekday
      • dt.dayofyear

 

4. Data Encoding

  • Normal Encoding
    • One hot Encoding
    • Mean Encoding
  • Ordinal Encoding
    • Label Encoding
    • Target Encoding
    • Ordinal Encoding

 

5. Data Scaling and Transformer

  • Normalizer
  • Transformer
    • Power Transformer
    • Quantile Transformer
  • Scaler
    • Standard Scaler
    • Min Max Scaler
    • Max Abs Scaler
    • Robust Scaler

 

6. Supervised Learning - Classification Model

  • Linear Classification Model
    • Logistic Regression
    • Linear SVM
  • Dicision Tree
  • KNN

 


 

Keep

 

규칙적인 생활

 꾸준히 일찍 일어나고, 8시 20분 전후로 강의실에 도착할 수 있어서 좋다. 그 시간 동안 못다 한 공부를 하거나 프로젝트를 진행할 수 있어서 앞으로도 계속 이어나갈 계획이다.

 

 

Problem

 

시간 관리 문제

 토이 프로젝트에 시간을 많이 쓰게 되면서 자격증 공부를 할 시간이 줄어들게 되었다. 이에 시간을 적절히 분배해야 한다.

 

 

Try

 

마음 다짐

 점점 귀찮아지고 정신이 해이해지는 것 같아서 마음을 다시 잡아야 한다. 해야 할 일이 많기 때문에 계속 미루는 것은 좋지 않다.